\chapter{相似标准型}

%%%%%%%%%%%%%%%%%%%%------多项式矩阵
\section{多项式矩阵}


我们将在这一章里继续探讨上一章中提出的问题: 给定一个线性变换, 找出一组基, 使该线性变换在这组基下的表示矩阵具有比较简单的形状. 这个问题等价于寻找一类比较简单的矩阵, 使任一同阶方阵均与这类矩阵中的某一个相似. 这类比较简单的矩阵就是所谓的相似标准型.

为了解决这个问题, 可以分两步走. 第一步找出相似矩阵的不变量, 这些不变量不仅在相似关系下保持不变, 而且足以判断两个矩阵是否相似. 我们称这样的不变量为全系不变量. 比如秩是两个 (同阶) 矩阵在相抵关系下的不变量, 反之, 若两个矩阵的秩相同, 则它们必相抵. 因此, 秩是矩阵相抵关系的全系不变量. 第二步找出一类比较简单的矩阵, 利用相似关系的全系不变量就可以判断一个矩阵与这类矩阵中的某一个相似.

相似关系比相抵关系要更复杂一些, 它的全系不变量也比较复杂. 我们在上一章中已经知道, 矩阵的特征多项式 (从而特征值) 是相似不变量,极小多项式也是相似不变量, 但它并不是全系不变量.因为我们很容易举出例子来证明这一点. 比如下面两个矩阵的特征多项式和极小多项式相同但不相似:
\begin{example}
    \[
	A = \begin{pmatrix}
		\begin{array}{cc:cc}
			0 & 1 & 0&0 \\
			0 & 0 & 0&0 \\
			\hdashline
			0 & 0 & 0&1 \\
			0 & 0 & 0&0
		\end{array}
	\end{pmatrix},\quad B=  \begin{pmatrix}
		\begin{array}{cc:cc}
			0 & 0 & 0&0 \\
			0 & 0 & 0&0 \\
			\hdashline
			0 & 0 & 0&1 \\
			0 & 0 & 0&0
		\end{array}
	\end{pmatrix}\]
    特征多项式都是$ \lambda^4$,由于都是分块对角阵,故极小多项式为每一个分块的极小多项式的最小公倍式,可得极小多项式都是$ \lambda^2$,但是这两个矩阵不相似(两个矩阵的秩不同,不相抵,一定不相似).
\end{example}



人们经过研究终于发现,两个矩阵 \(A\) 与 \(B\) 之间的相似和 \(\lambda {\mathbf{I}}_{n} - A\) 与 \(\lambda {\mathbf{I}}_{n} - B\) 的相抵有着密切的联系. 注意, \(\lambda {\mathbf{I}}_{n} - A\) 是这样形式的矩阵:
\[\begin{pmatrix}
    \lambda - {a}_{11} & - {a}_{12} & \cdots & - {a}_{1n} \\ - {a}_{21} & \lambda - {a}_{22} & \cdots & - {a}_{2n} \\ \vdots & \vdots & & \vdots \\ - {a}_{n1} & - {a}_{n2} & \cdots & \lambda - {a}_{nn}
\end{pmatrix}\]

其中的元素含有未定元 \(\lambda\) . 
\begin{definition}[$ \lambda$矩阵]
    一般地,下列形式的矩阵:
\[
    A(\lambda) = \begin{pmatrix}
        {a}_{11}\left( \lambda \right) & {a}_{12}\left( \lambda \right) & \cdots & {a}_{1n}\left( \lambda \right) \\ {a}_{21}\left( \lambda \right) & {a}_{22}\left( \lambda \right) & \cdots & {a}_{2n}\left( \lambda \right) \\ \vdots & \vdots & & \vdots \\ {a}_{m1}\left( \lambda \right) & {a}_{m2}\left( \lambda \right) & \cdots & {a}_{mn}\left( \lambda \right) 
    \end{pmatrix}\]
其中 \({a}_{ij}\left( \lambda \right)\) 是以 \(\lambda\) 为未定元的数域 \(\mathbb{K}\) 上的多项式,我们称之为多项式矩阵, 或 \(\lambda\) -矩阵. 
\end{definition}

\(\lambda\) -矩阵的加法、数乘及乘法与数域上的矩阵运算一样,只需在运算过程中将数的运算代之以多项式运算即可.

现在我们来研究两个 \(\lambda\) -矩阵的相抵关系. 首先我们必须定义什么叫 \(\lambda\) -矩阵的初等变换.

\begin{definition}[$ \lambda$矩阵的初等变换]
    对 \(\lambda\) -矩阵 \(A\left( \lambda \right)\) 施行的下列 3 种变换称为 \(\lambda\) -矩阵的初等行变换:
    \begin{enumerate}[(1)]
        \item 将 \(A\left( \lambda \right)\) 的两行对换;
        \item 将 \(A\left( \lambda \right)\) 的第 \(i\) 行乘以常数 \(c,c\) 是数域 \(\mathbb{K}\) 中的非零数;
        \item 将 \(A\left( \lambda \right)\) 的第 \(i\) 行乘以 \(\mathbb{K}\) 上的多项式 \(f\left( \lambda \right)\) 后加到第 \(j\) 行上去.
    \end{enumerate}
\end{definition}
同理我们可以定义 3 种 \(\lambda\) -矩阵的初等列变换.





类似数字矩阵, \(\lambda\) -矩阵的初等变换也对应于初等 \(\lambda\) -矩阵的相乘.

\begin{definition}[初等 \(\lambda\) -矩阵]
    下列 3 种矩阵称为初等 \(\lambda\) -矩阵:
    \begin{enumerate}[(1)]
        \item 将 \(n\) 阶单位阵的第 \(i\) 行与第 \(j\) 行对换,记为 \({P}_{ij}\) ;
        \item 将 \(n\) 阶单位阵的第 \(i\) 行乘以非零常数 \(c\) ,记为 \({P}_{i}\left( c\right)\) ;
        \item 将 \(n\) 阶单位阵的第 \(i\) 行乘以多项式 \(f\left( \lambda \right)\) 后加到第 \(j\) 行上去后得到的矩阵,记为 \({T}_{ij}\left( {f\left( \lambda \right) }\right)\) .
    \end{enumerate}
\end{definition}



注意,第一类与第二类初等 \(\lambda\) -矩阵与数域上的第一类与第二类初等矩阵没有什么区别. 第三类初等 \(\lambda\) -矩阵的形状如下:
\[{T}_{ij}\left( {f\left( \lambda \right) }\right) =\begin{pmatrix}
    1 & & & & & & \\ & \ddots & & & & & \\ & & 1 & & & & \\ & & \vdots & \ddots & & & \\ & & f\left( \lambda \right) & \cdots & 1 & & \\ & & & & & \ddots & \\ & & & & & & 1 
\end{pmatrix}\]



\begin{theorem}
    对 \(\lambda\) -矩阵 \(A\left( \lambda \right)\) 施行第 \(k\left( {k = 1,2,3}\right)\) 类初等行 (列) 变换等于用第 \(k\) 类初等 \(\lambda\) -矩阵左 (右) 乘以 \(A\left( \lambda \right)\) .
\end{theorem}

\begin{note}
    进行第3类初等变换时,行变换是左乘$ T_{ij}(f(\lambda))$,但列变换是右乘$ T_{ji}(f(\lambda))$.
\end{note}

\begin{note}
    下列 \(\lambda\) -矩阵的变换不是 \(\lambda\) -矩阵的初等变换:
    \[\begin{pmatrix}
        1 & 1 \\ 0 & 1
    \end{pmatrix}\rightarrow\begin{pmatrix}
        \lambda & \lambda \\ 0 & 1
    \end{pmatrix} \]
这是因为前面一个矩阵的第一行乘以 \(\lambda\) 不是 \(\lambda\) -矩阵的初等变换. 同理下面的变换需第一行乘以 \({\lambda }^{-1}\) ,因此也不是 \(\lambda\) -矩阵的初等变换:
\[\begin{pmatrix}
    \lambda & 0 \\ 0 & 1
\end{pmatrix}\rightarrow \begin{pmatrix}
    1 & 0 \\ 0 & 1
\end{pmatrix}\]
\end{note}

\begin{definition}[\(\lambda\) -矩阵的相抵]
    若$ A(\lambda)$通过若干次$ \lambda$ -矩阵的初等变换得到$ B(\lambda)$,则称$ A(\lambda)$与$ B(\lambda)$相抵.
\end{definition}


与数字矩阵一样, \(\lambda\) -矩阵的相抵关系也是一种等价关系,即
\begin{enumerate}[(1)]
    \item \(A\left( \lambda \right)\) 与自身相抵;
    \item 若 \(A\left( \lambda \right)\) 与 \(B\left( \lambda \right)\) 相抵,则 \(B\left( \lambda \right)\) 与 \(A\left( \lambda \right)\) 相抵;
    \item 若 \(A\left( \lambda \right)\) 与 \(B\left( \lambda \right)\) 相抵, \(B\left( \lambda \right)\) 与 \(C\left( \lambda \right)\) 相抵,则 \(A\left( \lambda \right)\) 与 \(C\left( \lambda \right)\) 相抵.
\end{enumerate}



\begin{definition}[可逆的 \(\lambda\) -矩阵]
    若 \(A\left( \lambda \right) ,B\left( \lambda \right)\) 都是 \(n\) 阶 \(\lambda\) -矩阵,且

\[
A\left( \lambda \right) B\left( \lambda \right) = B\left( \lambda \right) A\left( \lambda \right) = {\mathbf{I}}_{n},
\]

则称 \(B\left( \lambda \right)\) 是 \(A\left( \lambda \right)\) 的逆 \(\lambda\) -矩阵. 这时称 \(A\left( \lambda \right)\) 为可逆 \(\lambda\) -矩阵,有时在不引起混淆的情形下, 简称之为可逆阵.
\end{definition}


\begin{note}
    注意不要将数字矩阵中的一些结论随意搬到 \(\lambda\) -矩阵上. 比如下面的 \(\lambda\) -矩阵的行列式不为零,但它不是可逆 \(\lambda\) -矩阵:
    \[\begin{pmatrix}
        \lambda & 0 \\ 0 & 1
    \end{pmatrix}\]
这是因为矩阵
\[\begin{pmatrix}
    {\lambda }^{-1} & 0 \\ 0 & 1 
\end{pmatrix}\]
不是 \(\lambda\) -矩阵之故.
\end{note}


容易证明,有限个可逆 \(\lambda\) -矩阵之积仍是可逆 \(\lambda\) -矩阵,而初等 \(\lambda\) -矩阵都是可逆 \(\lambda\) -矩阵,因此有限个初等 \(\lambda\) -矩阵之积也是可逆 \(\lambda\) -矩阵. 下一节我们将证明可逆 \(\lambda\) -矩阵必可表示为有限个初等 \(\lambda\) -矩阵之积.

下面给出一个例子,将$ \lambda$-矩阵按照幂次进行拆分,可以写为矩阵多项式的形式(矩阵作为多项式的系数).
\[M(\lambda) = \begin{pmatrix}
    \lambda^2+\lambda+1&\lambda^2-1\\
    2\lambda+1&3\lambda-2
\end{pmatrix} = \begin{pmatrix}
    1&1\\
    0&0
\end{pmatrix}\lambda^2+\begin{pmatrix}
    1&0\\
    2&3
\end{pmatrix}\lambda+\begin{pmatrix}
    1&-1\\
    1&-2
\end{pmatrix}\]

下面给出矩阵多项式的定义.

\begin{definition}[矩阵多项式]
    设 \(M\left( \lambda \right)\) 是一个 \(n\) 阶 \(\lambda\) -矩阵,则 \(M\left( \lambda \right)\) 可以化为如下形状:
    \[
    M\left( \lambda \right) = {M}_{m}{\lambda }^{m} + {M}_{m - 1}{\lambda }^{m - 1} + \cdots + {M}_{0},
    \]
    其中 \({M}_{i}\) 为数域 \(\mathbb{K}\) 上的 \(n\) 阶数字矩阵.
\end{definition}

若$ M_m\neq 0$,则$ \deg M(\lambda) = m$. 约定$ \deg 0 = -\infty$.

矩阵多项式的相等,加法,数乘和乘法定义与多项式类似,但需要注意乘法一般不满足交换律(矩阵乘法一般不满足交换律).

两个$ \lambda$-矩阵乘积的次数不一定等于次数之和,因为矩阵乘法不满足整性(两个非零阵相乘可能等于零矩阵).

\begin{lemma}
    设$ M(\lambda),N(\lambda)$都是矩阵多项式,则 
    \[\deg(M(\lambda)N(\lambda))\leq \deg M(\lambda)+\deg N(\lambda),\]
    若$ M_m$或$ N_n$为可逆阵,则上述不等式取等号.
\end{lemma}
\begin{proof}
    $ M(\lambda)N(\lambda)$的首项为$ M_mN_n\lambda^{m+n}$,故次数一定小于等于$ m+n$.

    不妨设$ M_m$可逆,则$ M_mN_n\neq 0$,故次数为$ m+n$.
\end{proof}


\begin{lemma}
设 \(M\left( \lambda \right)\) 与 \(N\left( \lambda \right)\) 是两个 \(n\) 阶 \(\lambda\) -矩阵且都不等于零. 又设 \(B\) 为 \(n\) 阶数字矩阵,则必存在 \(\lambda\) -矩阵 \(Q\left( \lambda \right)\) 及 \(S\left( \lambda \right)\) 和数字矩阵 \(R\) 及 \(T\) ,使下式成立:

\[
M\left( \lambda \right) = \left( {\lambda \mathbf{I} - B}\right) Q\left( \lambda \right) + R
\]

\[
N\left( \lambda \right) = S\left( \lambda \right) \left( {\lambda \mathbf{I} - B}\right) + T
\]
\end{lemma}
\begin{proof}
    将 \(M\left( \lambda \right)\) 写为

\[
M\left( \lambda \right) = {M}_{m}{\lambda }^{m} + {M}_{m - 1}{\lambda }^{m - 1} + \cdots + {M}_{0},
\]

其中 \({M}_{m} \neq \mathbf{O}\) . 可对 \(m\) 用归纳法,若 \(m = 0\) ,则已适合要求 (取 \(Q\left( \lambda \right) = \mathbf{O}\) ). 现设对小于 \(m\) 次的矩阵多项式结论成立. 令

\[
{Q}_{1}\left( \lambda \right) = {M}_{m}{\lambda }^{m - 1}
\]

则

\[
M\left( \lambda \right) - \left( {\lambda \mathbf{I} - B}\right) {Q}_{1}\left( \lambda \right) = \left( {B{M}_{m} + {M}_{m - 1}}\right) {\lambda }^{m - 1} + \cdots + {M}_{0}.
\]

上式是一个次数小于 \(m\) 的矩阵多项式,由归纳假设得

\[
M\left( \lambda \right) - \left( {\lambda \mathbf{I} - B}\right) {Q}_{1}\left( \lambda \right) = \left( {\lambda \mathbf{I} - B}\right) {Q}_{2}\left( \lambda \right) + R.
\]
于是

\[
M\left( \lambda \right) = \left( {\lambda \mathbf{I} - B}\right) \left\lbrack {{Q}_{1}\left( \lambda \right) + {Q}_{2}\left( \lambda \right) }\right\rbrack + R.
\]

令 \(Q\left( \lambda \right) = {Q}_{1}\left( \lambda \right) + {Q}_{2}\left( \lambda \right)\) 即得到结论.另一个式子同理可得. 
\end{proof}



\begin{theorem}\label{theorem:7.1.2}
    设 \(A,B\) 是数域 \(\mathbb{K}\) 上的矩阵,则 \(A\) 与 \(B\) 相似的充分必要条件是 \(\lambda\) -矩阵 \(\lambda \mathbf{I} - A\) 与 \(\lambda \mathbf{I} - B\) 相抵.
\end{theorem}
\begin{proof}
    必要性:
若 \(A\) 与 \(B\) 相似,则存在 \(\mathbb{K}\) 上的非异阵 \(P\) ,使 \(B = {P}^{-1}AP\) ,于是
\[
{P}^{-1}\left( {\lambda \mathbf{I} - A}\right) P = \lambda \mathbf{I} - {P}^{-1}AP = \lambda \mathbf{I} - B.
\]
把 \(P\) 看成是常数 \(\lambda\) -矩阵,上式表明 \(\lambda \mathbf{I} - A\) 与 \(\lambda \mathbf{I} - B\) 相抵.

充分性:若 \(\lambda \mathbf{I} - A\) 与 \(\lambda \mathbf{I} - B\) 相抵,即存在 \(M\left( \lambda \right)\) 及 \(N\left( \lambda \right)\) ,使

\[
M\left( \lambda \right) \left( {\lambda \mathbf{I} - A}\right) N\left( \lambda \right) = \lambda \mathbf{I} - B,
\]

其中 \(M\left( \lambda \right)\) 与 \(N\left( \lambda \right)\) 都是有限个初等矩阵之积,因而都是可逆阵. 因此可将 上 式写为

\[
M\left( \lambda \right) \left( {\lambda \mathbf{I} - A}\right) = \left( {\lambda \mathbf{I} - B}\right) N{\left( \lambda \right) }^{-1},
\]


根据左带余除法有

\[
M\left( \lambda \right) = \left( {\lambda \mathbf{I} - B}\right) Q\left( \lambda \right) + R
\]


代入经整理得

\[
R\left( {\lambda \mathbf{I} - A}\right) = \left( {\lambda \mathbf{I} - B}\right) \left\lbrack {N{\left( \lambda \right) }^{-1} - Q\left( \lambda \right) \left( {\lambda \mathbf{I} - A}\right) }\right\rbrack .
\]


上式左边是次数小于等于 1 的矩阵多项式, 因此上式右边中括号内的矩阵多项式的次数必须小于等于零,也即必是一个常数矩阵,设为 \(P\) . 于是

\[
R\left( {\lambda \mathbf{I} - A}\right) = \left( {\lambda \mathbf{I} - B}\right) P.
\]


上式又可整理为

\[
\left( {R - P}\right) \lambda = RA - BP
\]

再次比较次数得 \(R = P,RA = BP\) . 现只需证明 \(P\) 是一个非异阵即可. 由假设

\[
P = N{\left( \lambda \right) }^{-1} - Q\left( \lambda \right) \left( {\lambda \mathbf{I} - A}\right)
\]

将上式两边右乘 \(N\left( \lambda \right)\) 并移项得

\[
PN\left( \lambda \right) + Q\left( \lambda \right) \left( {\lambda \mathbf{I} - A}\right) N\left( \lambda \right) = \mathbf{I}.
\]


但

\[
\left( {\lambda \mathbf{I} - A}\right) N\left( \lambda \right) = M{\left( \lambda \right) }^{-1}\left( {\lambda \mathbf{I} - B}\right)
\]

因此

\[
PN\left( \lambda \right) + Q\left( \lambda \right) M{\left( \lambda \right) }^{-1}\left( {\lambda \mathbf{I} - B}\right) = \mathbf{I}.
\]


再由右带余除法可设

\[
N\left( \lambda \right) = S\left( \lambda \right) \left( {\lambda \mathbf{I} - B}\right) + \mathbf{T}
\]

代入并整理得

\[
\left\lbrack {PS\left( \lambda \right) + Q\left( \lambda \right) M{\left( \lambda \right) }^{-1}}\right\rbrack \left( {\lambda \mathbf{I} - B}\right) = \mathbf{I} - PT.
\]

上式右边是次数小于等于零的矩阵多项式, 因此上式左边中括号内的矩阵多项式必须为零,从而 \(PT = \mathbf{I}\) ,即 \(P\) 是非异阵.
\end{proof}




%%%%%%%%%%%%%%%%----------矩阵的法式
\section{矩阵的法式}

在上一节中,我们把矩阵的相似归结为 \(\lambda\) -矩阵的相抵. 现在我们来求 \(\lambda\) -矩阵的相抵标准型. 我们自然地希望任一 \(\lambda\) -矩阵相抵于一个对角 \(\lambda\) -矩阵.





\begin{lemma}\label{lemma:7.2.1}
    设 \(A\left( \lambda \right) = {\left( {a}_{ij}\left( \lambda \right) \right) }_{m \times n}\) 是任一非零 \(\lambda\) -矩阵,则 \(A\left( \lambda \right)\) 必相抵于这样的一个 \(\lambda\) -矩阵 \(B\left( \lambda \right) = {\left( {b}_{ij}\left( \lambda \right) \right) }_{m \times n}\) ,其中 \({b}_{11}\left( \lambda \right) \neq 0\) 且 \({b}_{11}\left( \lambda \right)\) 可整除 \(B\left( \lambda \right)\) 中的任一元素 \({b}_{ij}\left( \lambda \right)\) .
\end{lemma}
\begin{proof}
    设 \(k = \min \left\{ {\deg {a}_{ij}\left( \lambda \right) \mid {a}_{ij}\left( \lambda \right) \neq 0,1 \leq i \leq m;1 \leq j \leq n}\right\}\) ,我们对 \(k\) 用数学归纳法. 
    
    首先,经行对换及列对换可将 \(A\left( \lambda \right)\) 的第 \(\left( {1,1}\right)\) 元素变成次数最低的非零多项式,因此不妨设 \({a}_{11}\left( \lambda \right) \neq 0\) 且 \(\deg {a}_{11}\left( \lambda \right) = k\) .
    
    若 \(k = 0\) ,则 \({a}_{11}\left( \lambda \right)\) 是一个非零常数,结论显然成立. 假设对非零元素次数的最小值小于 \(k\) 的任一 \(\lambda\) -矩阵, 引理的结论成立,现考虑非零元素次数的最小值等于 \(k\) 的 \(\lambda\) -矩阵 \(A\left( \lambda \right)\) . 若 \({a}_{11}\left( \lambda \right)\) 可整除所有的 \({a}_{ij}\left( \lambda \right)\) ,则结论已成立. 若否,设在第一列中有元素 \({a}_{i1}\left( \lambda \right)\) 不能被 \({a}_{11}\left( \lambda \right)\) 整除,作带余除法:
\[
{a}_{i1}\left( \lambda \right) = {a}_{11}\left( \lambda \right) q\left( \lambda \right) + r\left( \lambda \right)
\]
用 \(- q\left( \lambda \right)\) 乘以第一行加到第 \(i\) 行上,第 \(\left( {i,1}\right)\) 元素就变为 \(r\left( \lambda \right)\) . 注意到 \(r\left( \lambda \right) \neq 0\) 且 \(\deg r\left( \lambda \right) < \deg {a}_{11}\left( \lambda \right) = k\) ,此时新得到的$ A'(\lambda)$非零元的次数的最小值小于$ k$,由归纳假设即知结论成立.

同样的方法可施于第一行.

因此我们不妨设 \({a}_{11}\left( \lambda \right)\) 可整除第一行及第一列. 这时,设 \({a}_{21}\left( \lambda \right) = {a}_{11}\left( \lambda \right) g\left( \lambda \right)\) . 将第一行乘以 \(- g\left( \lambda \right)\) 加到第二行上,则第 \(\left( {2,1}\right)\) 元素变为零. 用同样的方法可消去第一行、第一列除 \({a}_{11}\left( \lambda \right)\) 以外的所有元素,于是 \(A\left( \lambda \right)\) 经初等变换后变成下列形状:
\[\begin{pmatrix}
    {a}_{11}\left( \lambda \right) & 0 & \cdots & 0 \\ 0 & {a}_{22}^{\prime }\left( \lambda \right) & \cdots & {a}_{2n}^{\prime }\left( \lambda \right) \\ \vdots & \vdots & & \vdots \\ 0 & {a}_{m2}^{\prime }\left( \lambda \right) & \cdots & {a}_{mn}^{\prime }\left( \lambda \right) 
\end{pmatrix}
\]


这时,若 \({a}_{11}\left( \lambda \right)\) 可整除所有其他元素,则结论已成立. 若否,比如 \({a}_{11}\left( \lambda \right)\) 不能整除 \({a}_{ij}^{\prime }\left( \lambda \right)\) ,则将第 \(i\) 行加到第一行上去,这时在第一行又出现了一元素 \({a}_{ij}^{\prime }\left( \lambda \right)\) ,它不能被 \({a}_{11}\left( \lambda \right)\) 整除. 重复上面的做法,通过归纳假设即可得到结论.
\end{proof}





\begin{theorem}\label{theorem:7.2.1}
    设 \(A\left( \lambda \right)\) 是一个 \(n\) 阶 \(\lambda\) -矩阵,则 \(A\left( \lambda \right)\) 相抵于对角阵
\[
\operatorname{diag}\left\{ {{d}_{1}\left( \lambda \right) ,{d}_{2}\left( \lambda \right) ,\cdots ,{d}_{r}\left( \lambda \right) ;0,\cdots ,0}\right\}
\]
其中 \({d}_{i}\left( \lambda \right)\) 是非零首一多项式且 \({d}_{i}\left( \lambda \right) \mid {d}_{i + 1}\left( \lambda \right) \left( {i = 1,2,\cdots ,r - 1}\right)\) .
\end{theorem}
\begin{proof}
    对 \(n\) 用数学归纳法,当 \(n = 1\) 时结论显然,现设 \(A\left( \lambda \right)\) 是 \(n\) 阶 \(\lambda\) -矩阵. 由引理可知 \(A\left( \lambda \right)\) 相抵于 \(n\) 阶 \(\lambda\) -矩阵 \(B\left( \lambda \right) = \left( {{b}_{ij}\left( \lambda \right) }\right)\) ,其中 \({b}_{11}\left( \lambda \right) \mid {b}_{ij}\left( \lambda \right)\) 对一切 \(i,j\) 成立. 因此,将 \(B\left( \lambda \right)\) 的第一行乘以某个 \(\lambda\) 的多项式加到第二行上去便可消去第二行第一列元素 \({b}_{21}\left( \lambda \right)\) . 同理可依次消去第一列除 \({b}_{11}\left( \lambda \right)\) 外的所有元素. 再用类似方法消去第一行其余元素. 这样便得到了一个矩阵:
    \[\begin{pmatrix}
        {b}_{11}\left( \lambda \right) & 0 & \cdots & 0 \\ 0 & {b}_{22}^{\prime }\left( \lambda \right) & \cdots & {b}_{2n}^{\prime }\left( \lambda \right) \\ \vdots & \vdots & & \vdots \\ 0 & {b}_{n2}^{\prime }\left( \lambda \right) & \cdots & {b}_{nn}^{\prime }\left( \lambda \right)
    \end{pmatrix}\]

    不难看出,这时 \({b}_{11}\left( \lambda \right)\) 仍可整除所有的 \({b}_{ij}^{\prime }\left( \lambda \right)\)\footnote{将$ b_{ij}(\lambda)$做两次第三类初等变换后即可得到结果.} . 设 \(c\) 为 \({b}_{11}\left( \lambda \right)\) 的首项系数, 记 \({d}_{1}\left( \lambda \right) = {c}^{-1}{b}_{11}\left( \lambda \right)\) ,设 \(\overline{B}\left( \lambda \right)\) 为上面的矩阵中右下方的 \(n - 1\) 阶 \(\lambda\) -矩阵,则由归纳假设可知存在 \(P\left( \lambda \right)\) 及 \(Q\left( \lambda \right)\) ,使

\[
P\left( \lambda \right) \overline{B}\left( \lambda \right) Q\left( \lambda \right) = \operatorname{diag}\left\{ {{d}_{2}\left( \lambda \right) ,\cdots ,{d}_{r}\left( \lambda \right) ;0,\cdots ,0}\right\}
\]

且 \({d}_{i}\left( \lambda \right) \mid {d}_{i + 1}\left( \lambda \right) \left( {i = 2,\cdots ,r - 1}\right)\) ,其中 \(P\left( \lambda \right)\) 与 \(Q\left( \lambda \right)\) 可写成为有限个初等 \(\lambda\) -矩阵之积. 于是
\[\begin{pmatrix}
    1 & 0 \\ 0 & P\left( \lambda \right) 
\end{pmatrix}\begin{pmatrix}
    {d}_{1}\left( \lambda \right) & 0 \\ 0 & \overline{B}\left( \lambda \right)
\end{pmatrix}\begin{pmatrix}
    1 & 0 \\ 0 & Q\left( \lambda \right)
\end{pmatrix} = \operatorname{diag}\left\{ {{d}_{1}\left( \lambda \right) ,{d}_{2}\left( \lambda \right) ,\cdots ,{d}_{r}\left( \lambda \right) ;0,\cdots ,0}\right\}\]
且
\[
\left( \begin{matrix} 1 & 0 \\ 0 & P\left( \lambda \right) \end{matrix}\right) ,\left( \begin{matrix} 1 & 0 \\ 0 & Q\left( \lambda \right) \end{matrix}\right)
\]
可写为若干个 \(n\) 阶初等 \(\lambda\) -矩阵之积. 于是只需证明 \({d}_{1}\left( \lambda \right) \mid {d}_{2}\left( \lambda \right)\) 即可. 但这点很容易看出,事实上由于 \(\overline{B}\left( \lambda \right)\) 中的任一元素均可被 \({d}_{1}\left( \lambda \right)\) 整除,因此 \(P\left( \lambda \right) \overline{B}\left( \lambda \right) Q\left( \lambda \right)\) 中的任一元素也可被 \({d}_{1}\left( \lambda \right)\) 整除,这就证明了定理.
\end{proof}


\begin{note}
    我们上面对 \(n\) 阶 \(\lambda\) -矩阵证明了它必相抵于一个对角阵. 事实上,对长方 \(\lambda\) -矩阵,结论也同样成立,证明也类似.式中的 \(r\) 通常称为 \(A\left( \lambda \right)\) 的秩. 但要注意即使某个 \(n\) 阶 \(\lambda\) -矩阵的秩等于 \(n\) ,它也未必是可逆 \(\lambda\) -矩阵.
\end{note}


\begin{definition}
    称 定理\ref{theorem:7.2.1}中的对角 \(\lambda\) -矩阵为 \(A\left( \lambda \right)\) 的法式或相抵标准型.
\end{definition}



\begin{lemma}
    设$ A(\lambda),B(\lambda)$为$ n$阶$ \lambda$-矩阵,则有
    \begin{enumerate}[(1)]
        \item $ |A(\lambda)B(\lambda)| = |A(\lambda)||B(\lambda)|$;
        \item $ A(\lambda)A(\lambda)^* = A(\lambda)^*A(\lambda) =|A(\lambda)|I_n$.
    \end{enumerate}
\end{lemma}
\begin{proof}
    \begin{enumerate}[(1)]
        \item 令$ f(\lambda) = |A(\lambda)B(\lambda)| - |A(\lambda)||B(\lambda)|$是关于$ \lambda$的多项式,对任意$ a\in \mathbb{K}$有
        \[f(a) = |A(a)B(a)| - |A(a)||B(a)| = 0,\]
        因此$ f(\lambda) = 0$.
        \item 令$ (f_{ij}(\lambda))_{m\times n} = A(\lambda)A(\lambda)^*-|A(\lambda)|I_n$,其中 
        \[f_{ij}(\lambda)\in \mathbb{K}[\lambda].\]
        对任意$ a\in \mathbb{K}$有
        \[f_{ij}(a) = A(a)A(a)^*-|A(a)|I_n = 0.\]
    \end{enumerate}
\end{proof}



\begin{theorem}
    设 \(A\left( \lambda \right)\) 为 \(n\) 阶 \(\lambda\) -矩阵,则以下结论等价:
    \begin{enumerate}[(1)]
        \item $ A(\lambda)$是可逆$ \lambda$-矩阵;
        \item $ |A(\lambda)|$是非零常数;
        \item $ A(\lambda)$的相抵标准型为$ I_n$;
        \item $ A(\lambda)$只通过行或列变换可变为$ I_n$;
        \item $ A(\lambda)$是初等$ \lambda$矩阵乘积.
        \end{enumerate}
\end{theorem}

\begin{proof}
    (1)$ \Rightarrow$(2).$ A(\lambda)$可逆,则存在$ B(\lambda)$使得 
    \[A(\lambda)B(\lambda) =B(\lambda) A(\lambda) = I_n.\]
    两边取行列式有
    \[1 = |I_n| = |A(\lambda)B(\lambda)| = |A(\lambda)||B(\lambda)|.\]
    于是$ A(\lambda), B(\lambda)$为非零常数.

    (2)$ \Rightarrow$(3).由前面定理知一定存在$ P(\lambda) ,Q(\lambda)$为初等$\lambda$-矩阵的乘积,使得
    \[P(\lambda)A(\lambda)Q(\lambda)=\operatorname{diag}\left\{ {{d}_{1}\left( \lambda \right) ,{d}_{2}\left( \lambda \right) ,\cdots ,{d}_{r}\left( \lambda \right) ;0,\cdots ,0}\right\}\]
其中$ d_i(\lambda)$为非零首一多项式

    两边取行列式有
    \[|P(\lambda)A(\lambda)Q(\lambda)| = |P(\lambda)||A(\lambda)||Q(\lambda)| = d_1(\lambda) d_2(\lambda) \cdots d_r(\lambda)\overbrace{0\cdots 0}^{n-r\text{个}},\]
    但左侧是非零的,只能是$ r = n$.于是$ d_i(\lambda)$只能是非零常数,由于首一,故$ d_i(\lambda) = 1$.从而$ A(\lambda)$相抵于$ I_n$.

    (3)$ \Rightarrow$(4). 由(3)知存在 $P(\lambda)$与$ Q(\lambda)$为初等$\lambda$-矩阵的乘积,使得
    \[ P(\lambda)A(\lambda)Q(\lambda) = I_n.\]
    则有 
    \[P(\lambda)A(\lambda) = Q^{-1}(\lambda),\]再同时左乘$ Q(\lambda)$得到
    \[Q(\lambda)P(\lambda)A(\lambda) =I_n,\]
    即只通过初等行变换即可将$ A(\lambda)$化为$ I_n$.列变换也是同理.

    (4)$ \Rightarrow$(5). 由(4)知 存在$ P_1(\lambda),P_2(\lambda),\cdots ,P_n(\lambda)$为初等$\lambda$-矩阵使得
    \[P_1(\lambda)P_2(\lambda)\cdots P_n(\lambda)A(\lambda) = I_n.\]

    由于初等 $\lambda$ -矩阵是可逆的,于是有 
    \[A(\lambda) = P_n(\lambda)^{-1}\cdots P_2^{-1}(P_1^{-1})^{-1}.\]
    由于$ P_i(\lambda)^{-1}$也是同类的初等$\lambda$-矩阵,故$ A(\lambda)$是初等$ \lambda$矩阵乘积.

    (5)$ \Rightarrow$(1). 由(5)知 $ A(\lambda)$为初等$\lambda$-矩阵乘积,从而是可逆 $\lambda$-矩阵的乘积,从而可逆.
\end{proof}



\begin{note}
    此时 
    \[A(\lambda)^{-1} = \frac{1}{|A(\lambda)|}A(\lambda)^*,\]
    通过上述引理即可得到.
\end{note}


\begin{theorem}
设 \(A\) 是数域 \(\mathbb{K}\) 上的 \(n\) 阶矩阵,则 \(A\) 的特征矩阵 \(\lambda {\mathbf{I}}_{n} - A\) 必相抵于
\[
\operatorname{diag}\left\{ {1,\cdots ,1,{d}_{1}\left( \lambda \right) ,\cdots ,{d}_{m}\left( \lambda \right) }\right\}
\]
其中 \({d}_{i}\left( \lambda \right) \mid {d}_{i + 1}\left( \lambda \right) \left( {i = 1,\cdots ,m - 1}\right)\) .
\end{theorem}
\begin{proof}
    由上述定理,存在 \(P\left( \lambda \right) ,Q\left( \lambda \right)\) ,使

\[
P\left( \lambda \right) \left( {\lambda {\mathbf{I}}_{n} - A}\right) Q\left( \lambda \right) = \operatorname{diag}\left\{ {{d}_{1}\left( \lambda \right) ,{d}_{2}\left( \lambda \right) ,\cdots ,{d}_{r}\left( \lambda \right) ;0,\cdots ,0}\right\}
\]

其中 \(P\left( \lambda \right) ,Q\left( \lambda \right)\) 为若干个初等 \(\lambda\) -矩阵之积. 根据 \(\lambda\) -矩阵初等变换的定义以及行列式的性质可得,上式左边的行列式等于 \(c\left| {\lambda {\mathbf{I}}_{n} - A}\right|\) ,其中 \(c\) 是一个非零常数(由首一性可知$ c$一定等于1),从而上式右边的行列式不为零,故 \(r = n\) . 把 \({d}_{i}\left( \lambda \right)\) 中的常数多项式写出来 (因是首一多项式, 故为常数 1), 就可得结论.
\end{proof}


\begin{example}
    若$\deg d_i(\lambda)\geq1$,则$ A = cI_n$.
\end{example}
\begin{proof}
    由于 
    \[|\lambda I_n - A| = d_1(\lambda) d_2(\lambda) \cdots d_n(\lambda),\]
    两边取次数有 
    \[n = \sum_{i=1}^{n}\deg d_i(\lambda)\geq n,\]
    于是$ \deg d_i(\lambda)=1$,且为首一多项式.

    又有整除关系知
    \[d_1(\lambda) = \cdots = d_n(\lambda) = \lambda-c,\]
    于是$ \lambda I_n - A$相抵于$ \operatorname*{diag}\{\lambda-c, \lambda-c,\cdots,\lambda-c\} = \lambda I_n-cI_n.$
\end{proof}



\begin{example}
    求 \(\lambda \mathbf{I} - A\) 的法式,其中
    \[A = \begin{pmatrix}
        0 & 1 & - 1 \\ 3 & - 2 & 0 \\ - 1 & 1 & - 1 
    \end{pmatrix}.\]
\end{example}

\begin{solution}
    具体的求解方法就是引理\ref{lemma:7.2.1}的证明过程,先找到在整除关系下最小的元素放到(1,1)位置,消去同行,同列的其他元素.如果没有,则做带余除法,将商与除数的乘积部分消掉,留下余数...


    \[\lambda I -A = \begin{pmatrix}
        \lambda&-1&1\\
        -3&\lambda+2&0\\
        1&-1&\lambda+1
    \end{pmatrix}\]
    第一行与第三行交换(将1放到(1,1)的位置),并利用1消去同行,同列的其他元素得到
    \[\begin{pmatrix}
        1&0&0\\
        0&\lambda-1&3\lambda+3\\
        0&\lambda-1&-\lambda^2-\lambda+1
    \end{pmatrix}\]
    此时右下角的二阶矩阵中无法找到在整除关系下的最小元素,所以利用带余除法,注意到

    \[3\lambda+3 = 3(\lambda-1)+6,\]
    故将第二列乘以-3加到第三列上,得到
    \[\begin{pmatrix}
        1&0&0\\
        0&\lambda-1&6\\
        0&\lambda-1&-\lambda^2-4\lambda+4
    \end{pmatrix}\rightarrow \begin{pmatrix}
        1&0&0\\
        0&6&\lambda-1\\
        0&-\lambda^2-4\lambda+4&\lambda-1
    \end{pmatrix}\]
    接下来利用6将同行同列其他元素消为零,为避免出现分数故将第三列先乘以6得到
    \[\begin{pmatrix}
        1&0&0\\
        0&6&6(\lambda-1)\\
        0&-\lambda^2-4\lambda+4&6(\lambda-1)
    \end{pmatrix}\rightarrow \begin{pmatrix}
        1&0&0\\
        0&1&0\\
        0&0&(\lambda-1)(\lambda^2+4\lambda+2)
    \end{pmatrix}.\]
\end{solution}





%%%%%%%%%%%%%%%%%%%------不变因子

\section{不变因子}


在上一节中我们证明了任一 \(\lambda\) -矩阵均相抵于一对角 \(\lambda\) -矩阵. 因此,如果两个 \(n\) 阶 \(\lambda\) -矩阵的法式相同,则它们必相抵. 现在要问反过来的问题,即如果两个 \(\lambda\) -矩阵的法式不相同,是否它们必不相抵? 假如我们能证明这一点,那么我们就找到了 \(\lambda\) -矩阵相抵关系的全系不变量,即 \(r\) 个首一多项式序列:

\[
{d}_{1}\left( \lambda \right) ,{d}_{2}\left( \lambda \right) ,\cdots ,{d}_{r}\left( \lambda \right)
\]

适合 \({d}_{i}\left( \lambda \right) \mid {d}_{i + 1}\left( \lambda \right) \left( {i = 1,\cdots ,r - 1}\right)\) . 为了证明这一点,我们只要证明上 式中的多项式在相抵关系下具有不变性就可以了. 为此, 我们需引进行列式因子的概念.


\begin{definition}[行列式因子]
    设 \(A\left( \lambda \right)\) 是 \(n\) 阶 \(\lambda\) -矩阵, \(k\) 是小于等于 \(n\) 的某个正整数. 如果 \(A\left( \lambda \right)\) 的所有 \(k\) 阶子式的最大公因子 (它是首一多项式) 不等于零,则称这个多项式为 \(A\left( \lambda \right)\) 的 \(k\) 阶行列式因子,记为 \({D}_{k}\left( \lambda \right)\) . 如果 \(A\left( \lambda \right)\) 的所有 \(k\) 阶子式都等于零,则规定 \(A\left( \lambda \right)\) 的 \(k\) 阶行列式因子为零.
\end{definition}


\begin{example}\label{example:7.4}
    求下列矩阵的行列式因子
    \[A(\lambda) = \begin{pmatrix}
        {d}_{1}\left( \lambda \right) & & & & & \\ & \ddots & & & & \\ & & {d}_{r}\left( \lambda \right) & & & \\ & & & 0 & & \\ & & & & \ddots & \\ & & & & & 0 
    \end{pmatrix}\]
    其中 \({d}_{i}\left( \lambda \right)\) 为非零首一多项式且 \({d}_{i}\left( \lambda \right) \mid {d}_{i + 1}\left( \lambda \right) \left( {i = 1,2,\cdots ,r - 1}\right)\) .
\end{example}

\begin{solution}
\(A\left( \lambda \right)\) 的非零行列式因子为

\[
{D}_{1}\left( \lambda \right) = {d}_{1}\left( \lambda \right) ,{D}_{2}\left( \lambda \right) = {d}_{1}\left( \lambda \right) {d}_{2}\left( \lambda \right) ,\cdots ,{D}_{r}\left( \lambda \right) = {d}_{1}\left( \lambda \right) {d}_{2}\left( \lambda \right) \cdots {d}_{r}\left( \lambda \right) .
\]
\end{solution}
\begin{note}
    可以看到行列式因子也满足相同的整除关系.
\end{note}



\begin{lemma}
设 \({D}_{1}\left( \lambda \right) ,{D}_{2}\left( \lambda \right) ,\cdots ,{D}_{r}\left( \lambda \right)\) 是 \(A\left( \lambda \right)\) 的非零行列式因子,则

\[
{D}_{i}\left( \lambda \right) \mid {D}_{i + 1}\left( \lambda \right) ,i = 1,2,\cdots ,r - 1.
\]
\end{lemma}
\begin{proof}
    设 \({A}_{i + 1}\) 是 \(A\left( \lambda \right)\) 的任一 \(i + 1\) 阶子式,即在 \(A\left( \lambda \right)\) 中任意取出 \(i + 1\) 行及 \(i + 1\) 列组成的行列式. 将这个行列式按某一行展开,则它的每一展开项都是一个多项式与一个 \(i\) 阶子式的乘积. 由于 \({D}_{i}\left( \lambda \right)\) 是所有 \(i\) 阶子式的公因子,因此 \({D}_{i}\left( \lambda \right) \mid {A}_{i + 1}\) . 而 \({D}_{i + 1}\left( \lambda \right)\) 是所有 \(i + 1\) 阶子式的最大公因子,因此 \({D}_{i}\left( \lambda \right) \mid {D}_{i + 1}\left( \lambda \right)\) 对一切 \(i = 1,2,\cdots ,r - 1\) 成立.
\end{proof}


\begin{definition}[不变因子]
    设 \({D}_{1}\left( \lambda \right) ,{D}_{2}\left( \lambda \right) ,\cdots ,{D}_{r}\left( \lambda \right)\) 是 \(\lambda\) -矩阵 \(A\left( \lambda \right)\) 的非零行列式因子, 则 \({g}_{1}\left( \lambda \right) = {D}_{1}\left( \lambda \right) ,{g}_{2}\left( \lambda \right) = {D}_{2}\left( \lambda \right) /{D}_{1}\left( \lambda \right) ,\cdots ,{g}_{r}\left( \lambda \right) = {D}_{r}\left( \lambda \right) /{D}_{r - 1}\left( \lambda \right)\) 称为 \(A\left( \lambda \right)\) 的不变因子.
\end{definition}


\begin{example}
    同例题\ref{example:7.4},根据定义$ A(\lambda)$的不变因子为
    \[
{d}_{1}\left( \lambda \right) ,{d}_{2}\left( \lambda \right) ,\cdots ,{d}_{r}\left( \lambda \right),
\]
恰好为主对角线上的非零多项式.
\end{example}


\begin{theorem}\label{theorem:7.3.1}
    相抵的 \(\lambda\) -矩阵有相同的行列式因子,从而有相同的不变因子.
\end{theorem}

\begin{proof}
    设$ B(\lambda) = P(\lambda) A(\lambda) Q(\lambda)$,其中$ P(\lambda),Q(\lambda)$是可逆的$ \lambda$-矩阵.

    设$ A(\lambda),B(\lambda)$的行列式因子分别为$ D_k(\lambda),E_k(\lambda),1\leq k\leq n$.

    下面考虑$ B(\lambda)$的任意一个$ k$阶子式,由Cauchy-Binet公式可知
    \begin{align*}
        B(\lambda)\begin{pmatrix}
        i_1&i_2&\cdots &i_k\\
        j_1&j_2&\cdots &j_k
    \end{pmatrix} &= P(\lambda)A(\lambda)Q(\lambda)\begin{pmatrix}
        i_1&i_2&\cdots &i_k\\
        j_1&j_2&\cdots &j_k
    \end{pmatrix}\\
    &=\sum_{\substack{1\leq r_1<\cdots<r_k\leq n\\ 1\leq s_1<\cdots<s_k\leq n}}P(\lambda)\begin{pmatrix}
        i_1 &i_2&\cdots &i_k\\
        r_1 &r_2&\cdots &r_k
    \end{pmatrix}A(\lambda)\begin{pmatrix}
        r_1 &r_2&\cdots &r_k\\
        s_1 &s_2&\cdots &s_k
    \end{pmatrix}Q(\lambda)\begin{pmatrix}
        s_1 &s_2&\cdots &s_k\\
        j_1 &j_2&\cdots &j_k
    \end{pmatrix}
    \end{align*}
    可以看到$ B(\lambda)$的$ k$阶子式与$ A(\lambda)$的某些$ k$阶子式有关.
    \begin{itemize}
        \item 若$ D_k(\lambda) = 0$,则$ B(\lambda)\begin{pmatrix}
            i_1&i_2&\cdots &i_k\\
            j_1&j_2&\cdots &j_k
        \end{pmatrix} = 0$,从而$ E_k(\lambda) = 0$.
        \item 若$ D_k(\lambda) \neq 0$,则有 
         \[D_k(\lambda)\mid A(\lambda)\begin{pmatrix}
            r_1 &r_2&\cdots &r_k\\
            s_1 &s_2&\cdots &s_k
         \end{pmatrix},\]
         从而
         \[D_k(\lambda)\mid B(\lambda)\begin{pmatrix}
            i_1&i_2&\cdots &i_k\\
            j_1&j_2&\cdots &j_k
        \end{pmatrix},\]
        故$ D_k(\lambda)\mid E_k(\lambda)$.
    \end{itemize}
    再考虑$ A(\lambda) = P(\lambda)^{-1}B(\lambda) Q(\lambda)^{-1}$,同理可得
    \begin{itemize}
        \item 若$ E_k(\lambda) = 0$,则 $ D_k(\lambda) = 0$;
        \item 若 $E_k(\lambda) \neq 0$,则$ E_k(\lambda)\mid D_k(\lambda)$.
    \end{itemize}
    于是 
    \begin{itemize}
        \item $ D_k(\lambda) = 0 \Leftrightarrow E_k(\lambda) = 0$;
        \item 若$ D_k(\lambda)\neq 0$,且$ E_k(\lambda)\neq 0$,则$ D_k(\lambda)\mid E_k(\lambda),E_k(\lambda)\mid D_k(\lambda)$.
        即存在$ c\neq 0$,使得 $D_k(\lambda) = cE_k(\lambda)$,由首一性可知$ c = 1$.
    \end{itemize}
    即$ D_k(\lambda) = E_k(\lambda))$.

    由于不变因子是由行列式因子定义的,从而不变因子相同.
\end{proof}

\begin{theorem}\label{theorem:7.3.2}
    设 \(n\) 阶 \(\lambda\) -矩阵 \(A\left( \lambda \right)\) 的法式为

\[
{\Lambda } = \operatorname{diag}\left\{ {{d}_{1}\left( \lambda \right) ,{d}_{2}\left( \lambda \right) ,\cdots ,{d}_{r}\left( \lambda \right) ;0,\cdots ,0}\right\}
\]

其中 \({d}_{i}\left( \lambda \right)\) 是非零首一多项式且 \({d}_{i}\left( \lambda \right) \mid {d}_{i + 1}\left( \lambda \right) \left( {i = 1,2,\cdots ,r - 1}\right)\) ,则 \(A\left( \lambda \right)\) 的不变因子为 \({d}_{1}\left( \lambda \right) ,{d}_{2}\left( \lambda \right) ,\cdots ,{d}_{r}\left( \lambda \right)\) . 特别,法式和不变因子之间相互唯一确定.
\end{theorem}
\begin{proof}
    由于$ A(\lambda)$与$ \Lambda$相抵,从而有相同的不变因子.

    由例题\ref{example:7.4}知$ \Lambda$的不变因子为 \({d}_{1}\left( \lambda \right) ,{d}_{2}\left( \lambda \right) ,\cdots ,{d}_{r}\left( \lambda \right)\) ,从而它们也是 \(A\left( \lambda \right)\) 的不变因子.
\end{proof}


\begin{corollary}\label{corollary:7.3.1}
    设 \(A\left( \lambda \right) ,B\left( \lambda \right)\) 为 \(n\) 阶 \(\lambda\) -矩阵,则 \(A\left( \lambda \right)\) 与 \(B\left( \lambda \right)\) 相抵当且仅当它们有相同的法式.
\end{corollary}
\begin{proof}
    充分性:若 \(A\left( \lambda \right)\) 与 \(B\left( \lambda \right)\) 有相同的法式,显然它们相抵. 
    
    必要性:若 \(A\left( \lambda \right)\) 与 \(B\left( \lambda \right)\) 相抵,由上述定理 知 \(A\left( \lambda \right)\) 与 \(B\left( \lambda \right)\) 有相同的不变因子,从而有相同的法式.
\end{proof}



\begin{corollary}
    \begin{enumerate}[(1)]
        \item $ \lambda$-矩阵在相抵关系下的全系不变量是它的行列式因子或不变因子;
        \item 法式或相抵标准型不依赖于$ \lambda$-矩阵的初等变换的选取.
    \end{enumerate}
\end{corollary}

\begin{proof}
    \begin{enumerate}[(1)]
        \item 必要性:若$ A(\lambda),B(\lambda)$相抵,根据定理\ref{theorem:7.3.1}知有相同的行列式因子,不变因子.
        
        充分性:有相同的行列式因子或不变因子,则它们的法式一定相同(定理\ref{theorem:7.3.2}),根据推论\ref{corollary:7.3.1}可知$ A(\lambda),B(\lambda)$一定相抵.

        \item 设$ A(\lambda)$在两种不同的初等变换下的法式分别为$ \Lambda_1,\Lambda_2$,下证$ \Lambda_1 = \Lambda_2$.
        
        由相抵关系的传递性可知$ \Lambda_1$ 与$ \Lambda_2$ 相抵,根据推论\ref{corollary:7.3.1}知$ \Lambda_1$ 与$ \Lambda_2$ 有相同的法式,但它们的法式是自己本身,故 $ \Lambda_1 = \Lambda_2$.
    \end{enumerate}
\end{proof}




\begin{theorem}\label{theorem:7.3.3}
    数域 \(\mathbb{K}\) 上 \(n\) 阶矩阵 \(A\) 与 \(B\) 相似的充分必要条件是它们的特征矩阵 \(\lambda \mathbf{I} - A\) 和 \(\lambda \mathbf{I} - B\) 具有相同的行列式因子或不变因子.
\end{theorem}
\begin{proof}
 $ A(\lambda)$与$ B(\lambda)$相抵$\stackrel{\text{定理}\ref{theorem:7.1.2}}{\Leftrightarrow}$其特征矩阵$ \lambda I-A$与$ \lambda I-B$相抵$\stackrel{\text{推论}\ref{theorem:7.3.2}(1)}{\Leftrightarrow}$它们有相同的行列式因子或不变因子.
\end{proof}



以后特征矩阵 \(\lambda \mathbf{I} - A\) 的行列式因子及不变因子均简称为 \(A\) 的行列式因子与不变因子.



\begin{theorem}
    设 \(\mathbb{F} \subseteq \mathbb{K}\) 是两个数域, \(A,B\) 是 \(\mathbb{F}\) 上的两个矩阵,则 \(A\) 与 \(B\) 在 \(\mathbb{F}\) 上相似的充分必要条件是它们在 \(\mathbb{K}\) 上相似.
\end{theorem}

\begin{proof}
    必要性:显然;

    充分性:设 \(A\) 与 \(B\) 在 \(\mathbb{K}\) 上相似,根据定理\ref{theorem:7.3.3}可知$ \lambda I-A$与$ \lambda I-B$有相同的行列式因子或不变因子,即有相同的法式.

    事实上,$ \lambda I-A$与$ \lambda I-B$是$ \mathbb{F}$上的$ \lambda$ -矩阵,由推论\ref{theorem:7.3.2}(2)知求法式的过程中,只要取$ \mathbb{F}[\lambda]$上的初等变换即可得到.

    这就是说存在 \(\mathbb{F}\) 上的可逆 \(\lambda\) -矩阵 \(P\left( \lambda \right) ,Q\left( \lambda \right) ,M\left( \lambda \right) ,N\left( \lambda \right)\) ,使

\[
P\left( \lambda \right) \left( {\lambda \mathbf{I} - A}\right) Q\left( \lambda \right) = M\left( \lambda \right) \left( {\lambda \mathbf{I} - B}\right) N\left( \lambda \right) = \operatorname{diag}\left\{ {{d}_{1}\left( \lambda \right) ,\cdots ,{d}_{n}\left( \lambda \right) }\right\}
\]

从而

\[
M{\left( \lambda \right) }^{-1}P\left( \lambda \right) \left( {\lambda \mathbf{I} - A}\right) Q\left( \lambda \right) N{\left( \lambda \right) }^{-1} = \lambda \mathbf{I} - B,
\]

即 \(\lambda \mathbf{I} - A\) 与 \(\lambda \mathbf{I} - B\) 在 \(\mathbb{F}\) 上相抵,由定理\ref{theorem:7.1.2} 可得 \(A\) 与 \(B\) 在 \(\mathbb{F}\) 上相似. 
\end{proof}


\begin{corollary}\label{corollary:7.3.3}
    矩阵的不变因子在基域扩张下不改变.
\end{corollary}



%%%%%%%%%%%%%----------有理标准型
\section{有理标准型}

利用矩阵的不变因子, 现在可以来构造所谓的 “有理标准型” 了. 我们的想法是寻找一个比较简单的矩阵, 使它与给定的矩阵有相同的不变因子. 由前面两节我们已经知道,矩阵 \(A\) 的特征矩阵 \(\lambda \mathbf{I} - A\) 的法式为

\[
\operatorname{diag}\left\{ {1,\cdots ,1,{d}_{1}\left( \lambda \right) ,\cdots ,{d}_{k}\left( \lambda \right) }\right\}
\]

其中 \({d}_{i}\left( \lambda \right)\) 为首一非常数多项式且 \({d}_{i}\left( \lambda \right) \mid {d}_{i + 1}\left( \lambda \right) \left( {i = 1,2,\cdots ,k - 1}\right)\) ,则 \(A\) 的不变因子就是

\[
1,\cdots ,1,{d}_{1}\left( \lambda \right) ,\cdots ,{d}_{k}\left( \lambda \right) .
\]



\begin{lemma}\label{lemma:7.4.1}
    设 \(r\) 阶矩阵
    \[F(f(\lambda))=F = \begin{pmatrix}
        0 & 1 & 0 & \cdots & 0 \\ 0 & 0 & 1 & \cdots & 0 \\ \vdots & \vdots & \vdots & & \vdots \\ 0 & 0 & 0 & \cdots & 1 \\ - {a}_{r} & - {a}_{r - 1} & - {a}_{r - 2} & \cdots & - {a}_{1} 
    \end{pmatrix},\]
则
\begin{enumerate}[(1)]
    \item \(F\) 的行列式因子为

    \[
    1,\cdots ,1,f\left( \lambda \right)
    \]
    其中共有 \(r - 1\) 个 \(1,f\left( \lambda \right) = {\lambda }^{r} + {a}_{1}{\lambda }^{r - 1} + \cdots + {a}_{r},F\) 的不变因子组也是上式;
    \item \(F\) 的特征多项式,极小多项式等于 \(f\left( \lambda \right)\) .
\end{enumerate}
\end{lemma}
\begin{proof}
    \begin{enumerate}[(1)]
        \item \(F\) 的 \(r\) 阶行列式因子就是它的特征多项式,
        \[
        \left| {\lambda \mathbf{I} - F}\right| = {\lambda }^{r} + {a}_{1}{\lambda }^{r - 1} + \cdots + {a}_{r}.
        \]

        对任一 \(k < r,\lambda \mathbf{I} - F\) 总有一个 \(k\) 阶子式其值等于 \({\left( -1\right) }^{k}\) ,故 \({D}_{k}\left( \lambda \right) = 1\) .
        \item 设极小多项式为$ m(\lambda)$,只需证明$ m(\lambda) = f(\lambda)$即可.
        
        由凯莱-哈密顿定理可知$ m(\lambda)\mid f(\lambda)$.故$ \deg m(\lambda)\leq r$.

        \begin{itemize}
            \item $ \deg m(\lambda) = r$,则$ f(\lambda) = c m(\lambda),c\neq 0$,由首一性知$ c = 1$,即 $ m(\lambda) = f(\lambda)$.
            \item $ \deg m(\lambda)<r$,下推矛盾.
            设为\[m(\lambda) = c_{r-1}\lambda^{r-1}+ \cdots + c_{1}\lambda + c_{0},\]
            其中$ c_i$不全为零.

            设 \({e}_{i}(i =\) \(1,2,\cdots ,r)\) 是 \(r\) 维标准单位行向量,则不难算出:
            \[
            {e}_{1}F = {e}_{2},{e}_{1}{F}^{2} = {e}_{3},\cdots ,{e}_{1}{F}^{r - 1} = {e}_{r}.
            \]
            即$ e_1 F^i = e_{i+1},\forall 1\leq i\leq r-1$.

            由极小多项式定义有  
            \[0 = m(F) = c_{r-1}F^{r-1}+ \cdots + c_{1}F + c_{0}I_r,\]
            两边同乘以$ e_1$可得 
            \[0 = c_{r-1}e_{1}F^{r-1}+ \cdots + c_{1}e_{1}F + c_{0}e_{1}I_r= c_{r-1}e_r+\cdots+c_1e_2+c_0e_1,\]
            但$ e_1,\cdots,e_r$是线性无关的,故$ c_i$只能全为零.这与极小多项式为非零多项式矛盾.
        \end{itemize}
    \end{enumerate}
\end{proof}


\begin{lemma}\label{lemma:7.4.2}
设 \(\lambda\) -矩阵 \(A\left( \lambda \right)\) 相抵于对角 \(\lambda\) -矩阵

\[
\operatorname{diag}\left\{ {{d}_{1}\left( \lambda \right) ,{d}_{2}\left( \lambda \right) ,\cdots ,{d}_{n}\left( \lambda \right) }\right\}
\]

\(\lambda\) -矩阵 \(B\left( \lambda \right)\) 相抵于对角 \(\lambda\) -矩阵

\[
\operatorname{diag}\left\{ {{d}_{1}^{\prime }\left( \lambda \right) ,{d}_{2}^{\prime }\left( \lambda \right) ,\cdots ,{d}_{n}^{\prime }\left( \lambda \right) }\right\}
\]

且 \({d}_{1}^{\prime }\left( \lambda \right) ,{d}_{2}^{\prime }\left( \lambda \right) ,\cdots ,{d}_{n}^{\prime }\left( \lambda \right)\) 是 \({d}_{1}\left( \lambda \right) ,{d}_{2}\left( \lambda \right) ,\cdots ,{d}_{n}\left( \lambda \right)\) 的一个置换 (即若不计次序, 这两组多项式完全相同),则 \(A\left( \lambda \right)\) 相抵于 \(B\left( \lambda \right)\) .
\end{lemma}
\begin{proof}
    利用行对换及列对换即可将 第一个 式子变成第二个式子, 因此两所示的矩阵相抵,从而 \(A\left( \lambda \right)\) 与 \(B\left( \lambda \right)\) 相抵.
\end{proof}


\begin{theorem}
    设 \(A\) 是数域 \(\mathbb{K}\) 上的 \(n\) 阶方阵, \(A\) 的不变因子组为

\[
1,\cdots ,1,{d}_{1}\left( \lambda \right) ,\cdots ,{d}_{k}\left( \lambda \right)
\]

其中 \(\deg {d}_{i}\left( \lambda \right) = {m}_{i}\) ,则 \(A\) 相似于下列分块对角阵:

\[F = \begin{pmatrix}
    {F}_{1} & & & \\ & {F}_{2} & & \\ & & \ddots & \\ & & & {F}_{k}
\end{pmatrix}\]


其中 \({F}_{i}\) 的阶等于 \({m}_{i}\) ,且 \({F}_{i}\) 是形如引理 \ref{lemma:7.4.1} 中的矩阵, \({F}_{i}\) 的最后一行由 \({d}_{i}\left( \lambda \right)\) 系数 (除最高次项) 的负值组成.
\end{theorem}
\begin{proof}
    注意到 \(\lambda \mathbf{I} - A\) 的第 \(n\) 个行列式因子就是 \(A\) 的特征多项式 \(\left| {\lambda \mathbf{I} - A}\right|\) , 再由行列式因子的相抵不变性可知:

\[
\left| {\lambda \mathbf{I} - A}\right| = {d}_{1}\left( \lambda \right) {d}_{2}\left( \lambda \right) \cdots {d}_{k}\left( \lambda \right)
\]

而 \(\left| {\lambda \mathbf{I} - A}\right|\) 是一个 \(n\) 次多项式,因此 \({m}_{1} + {m}_{2} + \cdots + {m}_{k} = n\) . 由引理 \ref{lemma:7.4.1},矩阵 \({F}_{i}\) 的不变因子为

\[
1,\cdots ,1,{d}_{i}\left( \lambda \right)
\]

其中共有 \({m}_{i} - 1\) 个 1 . 

再考虑$ \lambda I-F$经过若干次$ \lambda$-矩阵的初等变换一定可以得到如下形式
\[
\operatorname{diag}\left\{ {1,\cdots ,1,{d}_{1}\left( \lambda \right) ;1,\cdots ,1,{d}_{2}\left( \lambda \right) ;\cdots ;1,\cdots ,1,{d}_{k}\left( \lambda \right) }\right\} ,
\]

每个 \({d}_{i}\left( \lambda \right)\) 前配以 \({m}_{i} - 1\) 个 1 ,共有$ n-k$个1. 即 \(\lambda \mathbf{I} - F\) 与 上式所示的矩阵相抵,而 上 式所示的矩阵与 \(\lambda \mathbf{I} - A\) 的法式只相差主对角线上元素的置换, 由引理 \ref{lemma:7.4.2}可得 \(\lambda \mathbf{I} - A\) 与 \(\lambda \mathbf{I} - F\) 相抵,从而 \(A\) 与 \(F\) 相似.
\end{proof}


\begin{definition}
    上述定理中的对角阵称为矩阵 \(A\) 的有理标准型或 Frobenius (弗罗本纽斯) 标准型,每个 \({F}_{i}\) 称为 Frobenius 块.
\end{definition}

\begin{example}
    设 6 阶矩阵 \(A\) 的不变因子为
\[
1,1,1,\lambda - 1,{\left( \lambda - 1\right) }^{2},{\left( \lambda - 1\right) }^{2}\left( {\lambda + 1}\right)
\]

则 \(A\) 的有理标准型为
\[\begin{pmatrix}
    1 & & & & & \\ & 0 & 1 & & & \\ & - 1 & 2 & & & \\ & & & 0 & 1 & 0 \\ & & & 0 & 0 & 1 \\ & & & - 1 & 1 & 1 
\end{pmatrix}\]
\end{example}

\begin{note}
    事实上,如果没有告诉$ A$的阶数,通过不变因子也可以得到阶数.

    不变因子中非常数的乘积即为特征多项式,是6次的,故$ A$一定是6阶的.
\end{note}


\begin{theorem}
    设数域 \(\mathbb{K}\) 上的 \(n\) 阶矩阵 \(A\) 的不变因子为

\[
1,\cdots ,1,{d}_{1}\left( \lambda \right) ,\cdots ,{d}_{k}\left( \lambda \right)
\]

其中 \({d}_{i}\left( \lambda \right) \mid {d}_{i + 1}\left( \lambda \right) \left( {i = 1,\cdots ,k - 1}\right)\) ,则 \(A\) 的极小多项式 \(m\left( \lambda \right) = {d}_{k}\left( \lambda \right)\) .
\end{theorem}
\begin{proof}
    设 \(A\) 的有理标准型为

    \[F = \begin{pmatrix}
        {F}_{1} & & & \\ & {F}_{2} & & \\ & & \ddots & \\ & & & {F}_{k}
    \end{pmatrix}\]

因为相似矩阵有相同的极小多项式,故只需证明 \(F\) 的极小多项式是 \({d}_{k}\left( \lambda \right)\) 即可. 但 \(F\) 是分块对角阵,由于 \(F\) 的极小多项式是诸 \({F}_{i}\) 极小多项式的最小公倍式. 又由引理\ref{lemma:7.4.1}知 \({F}_{i}\) 的极小多项式为 \({d}_{i}\left( \lambda \right)\) . 因为 \({d}_{i}\left( \lambda \right) \mid {d}_{i + 1}\left( \lambda \right)\) ,故诸 \({d}_{i}\left( \lambda \right)\) 的最小公倍式等于 \({d}_{k}\left( \lambda \right)\) .
\end{proof}


\begin{corollary}
    设$ A\in\mathcal{M}_n(\mathbb{F})$,其极小多项式为$ m_{\mathbb{F}}(\lambda)$,$ \mathbb{F} \subseteq \mathbb{K} $,将$ A$看成是$ \mathbb{K} $上的矩阵,极小多项式为 $ m_{\mathbb{K}}(\lambda) $.则 
    \[ m_{\mathbb{K}}(\lambda) = m_{\mathbb{F}}(\lambda). \]
\end{corollary}
\begin{note}
    即极小多项式在基域扩张下不改变.
\end{note}

\begin{example}
    下面两个 4 阶矩阵
    \[
	A = \begin{pmatrix}
		\begin{array}{cc:cc}
			0 & 1 & 0&0 \\
			0 & 0 & 0&0 \\
			\hdashline
			0 & 0 & 0&1 \\
			0 & 0 & 0&0
		\end{array}
	\end{pmatrix},\quad B=  \begin{pmatrix}
		\begin{array}{cc:cc}
			0 & 0 & 0&0 \\
			0 & 0 & 0&0 \\
			\hdashline
			0 & 0 & 0&1 \\
			0 & 0 & 0&0
		\end{array}
	\end{pmatrix}\]
    的不变因子分别为 \(A : 1,\lambda ,\lambda ,{\lambda }^{2}\) 和 \(B : 1,1,{\lambda }^{2},{\lambda }^{2}\) . 它们的特征多项式和极小多项式分别相等, 但它们不相似.
\end{example}


%%%%%%%%%%%%%%%%----------------初等因子

\section{初等因子}

利用矩阵的不变因子, 我们可以求一个矩阵的有理标准型. 有理标准型对任何数域 \(\mathbb{K}\) 都可以求出来,它有着诸多的用途. 但是有理标准型也有一些缺点,主要是它有时不够 “简单”, 即有时每个 Frobenius 块太大, 用起来不太方便. 有理标准型中 Frobenius 块太大的原因是不变因子 \({d}_{i}\left( \lambda \right)\) 的次数可能比较高. 如果我们用因式分解的方法分解每个 \({d}_{i}\left( \lambda \right)\) ,这就有可能造出更 “细” 的标准型来. 为此,我们先引进初等因子的概念.


\begin{definition}
    设$ f(\lambda)\in \mathbb{K}[\lambda]$,$ p(\lambda)$为不可约多项式,若存在$ e\in 
    \mathbb{Z}^+$,使得$ p(\lambda)^e\mid f(\lambda)$,但$ p(\lambda)^{e+1}\nmid f(\lambda)$,则称$ p(\lambda)^e$为$ f(\lambda)$的准素因子.

    考虑$ f(\lambda)$的标准因式分解,
    \[f(\lambda) = cp_1(\lambda)^{e_1} \cdots p_m(\lambda)^{e_m},\]
    其中$ c\neq 0$,$ p_i(\lambda)$为互异的首一不可约多项式,$ e_i\geq 1(1\leq i\leq m)$.则$ f(\lambda)$的准素因子为
    \[p_i(\lambda)^{e_i}.\]
\end{definition}



设 \({d}_{1}\left( \lambda \right) ,{d}_{2}\left( \lambda \right) ,\cdots ,{d}_{k}\left( \lambda \right)\) 是数域 \(\mathbb{K}\) 上矩阵 \(A\) 的非常数不变因子,在 \(\mathbb{K}\) 上把 \({d}_{i}\left( \lambda \right)\) 分解成不可约因式之积:
\begin{equation}\label{equation:7.1}
    \begin{aligned}
        {d}_{1}\left( \lambda \right) &= {p}_{1}{\left( \lambda \right) }^{{e}_{11}}{p}_{2}{\left( \lambda \right) }^{{e}_{12}}\cdots {p}_{t}{\left( \lambda \right) }^{{e}_{1t}},\\
    {d}_{2}\left( \lambda \right) &= {p}_{1}{\left( \lambda \right) }^{{e}_{21}}{p}_{2}{\left( \lambda \right) }^{{e}_{22}}\cdots {p}_{t}{\left( \lambda \right) }^{{e}_{2t}},\\
&\cdots\\
{d}_{k}\left( \lambda \right) &= {p}_{1}{\left( \lambda \right) }^{{e}_{k1}}{p}_{2}{\left( \lambda \right) }^{{e}_{k2}}\cdots {p}_{t}{\left( \lambda \right) }^{{e}_{kt}},
    \end{aligned}
\end{equation}

其中 \({e}_{ij}\) 是非负整数 (注意 \({e}_{ij}\) 可以为零!). 由于 \({d}_{i}\left( \lambda \right) \mid {d}_{i + 1}\left( \lambda \right)\) ,因此
\[
{e}_{1j} \leq {e}_{2j} \leq \cdots \leq {e}_{kj}\left( {j = 1,2,\cdots ,t}\right) .
\]


\begin{definition}
    若 \eqref{equation:7.1}式中的 \({e}_{ij} > 0\) ,则称 \({p}_{j}{\left( \lambda \right) }^{{e}_{ij}}\) 为 \(A\) 的一个初等因子, \(A\) 的全体初等因子称为 \(A\) 的初等因子组.

    等价地,$ A$的非常数不变因子的准素因子就是$ A$的初等因子,从而$ A$的初等因子组就是$ A$的非常数不变因子的准素因子全体.
\end{definition}


由因式分解的唯一性可知 \(A\) 的初等因子被 \(A\) 的不变因子唯一确定. 反过来, 若给定一组初等因子 \({p}_{j}{\left( \lambda \right) }^{{e}_{ij}}\) ,适当增加一些 1 (表示为 \(\left. {{p}_{j}{\left( \lambda \right) }^{{e}_{ij}},{e}_{ij} = 0}\right)\) ,则可将这组初等因子按降幂排列如下:
\begin{equation}\label{equation:7.2}
    \begin{aligned}
        &{p}_{1}{\left( \lambda \right) }^{{e}_{k1}},{p}_{1}{\left( \lambda \right) }^{{e}_{k - 1,1}},\cdots ,{p}_{1}{\left( \lambda \right) }^{{e}_{11}},\\
        &{p}_{2}{\left( \lambda \right) }^{{e}_{k2}},{p}_{2}{\left( \lambda \right) }^{{e}_{k - 1,2}},\cdots ,{p}_{2}{\left( \lambda \right) }^{{e}_{12}},\\
        &\cdots\\
        &{p}_{t}{\left( \lambda \right) }^{{e}_{kt}},{p}_{t}{\left( \lambda \right) }^{{e}_{k - 1,t}},\cdots ,{p}_{t}{\left( \lambda \right) }^{{e}_{1t}}
    \end{aligned}
\end{equation}

令
\begin{equation}
    \begin{aligned}
        {d}_{k}\left( \lambda \right) &= {p}_{1}{\left( \lambda \right) }^{{e}_{k1}}{p}_{2}{\left( \lambda \right) }^{{e}_{k2}}\cdots {p}_{t}{\left( \lambda \right) }^{{e}_{kt}},\\
        {d}_{k - 1}\left( \lambda \right) &= {p}_{1}{\left( \lambda \right) }^{{e}_{k - 1,1}}{p}_{2}{\left( \lambda \right) }^{{e}_{k - 1,2}}\cdots {p}_{t}{\left( \lambda \right) }^{{e}_{k - 1,t}},\\
        &\cdots\\
        {d}_{1}\left( \lambda \right) &= {p}_{1}{\left( \lambda \right) }^{{e}_{11}}{p}_{2}{\left( \lambda \right) }^{{e}_{12}}\cdots {p}_{t}{\left( \lambda \right) }^{{e}_{1t}}.
    \end{aligned}
\end{equation}
则 \({d}_{i}\left( \lambda \right) \mid {d}_{i + 1}\left( \lambda \right) \left( {i = 1,\cdots ,k - 1}\right)\) ,且 \({d}_{1}\left( \lambda \right) ,\cdots ,{d}_{k}\left( \lambda \right)\) 的初等因子组就如\eqref{equation:7.2} 式所示. 因此,给定 \(A\) 的初等因子组,我们可唯一地确定 \(A\) 的不变因子组. 这一事实表明, \(A\) 的不变因子组与初等因子组在讨论矩阵相似关系中的作用是相同的. 因此我们有下述定理.


\begin{theorem}
    数域 \(\mathbb{K}\) 上的两个矩阵 \(A\) 与 \(B\) 相似的充分必要条件是它们有相同的初等因子组, 即矩阵的初等因子组是矩阵相似关系的全系不变量.
\end{theorem}


\begin{example}
设 9 阶矩阵 \(A\) 的不变因子组为
\[
1,\cdots ,1,\left( {\lambda - 1}\right) \left( {{\lambda }^{2} + 1}\right) ,{\left( \lambda - 1\right) }^{2}\left( {{\lambda }^{2} + 1}\right) \left( {{\lambda }^{2} - 2}\right) ,
\]
试分别在有理数域、实数域和复数域上求 \(A\) 的初等因子组.
\end{example}

\begin{solution}
\(A\) 在有理数域上的初等因子组为

\[
\lambda - 1,{\left( \lambda - 1\right) }^{2},{\lambda }^{2} + 1,{\lambda }^{2} + 1,{\lambda }^{2} - 2.
\]

\(A\) 在实数域上的初等因子组为

\[
\lambda - 1,{\left( \lambda - 1\right) }^{2},{\lambda }^{2} + 1,{\lambda }^{2} + 1,\lambda + \sqrt{2},\lambda - \sqrt{2}.
\]

\(A\) 在复数域上的初等因子组为

\[
\lambda - 1,{\left( \lambda - 1\right) }^{2},\lambda + \mathrm{i},\lambda + \mathrm{i},\lambda - \mathrm{i},\lambda - \mathrm{i},\lambda + \sqrt{2},\lambda - \sqrt{2}.
\]
\end{solution}

\begin{remark}
    不变因子在基域扩张下不改变,但由于因式分解依赖于基域的选取,故初等因子在不同的数域上一般不相同.
\end{remark}



\begin{example}
设 \(A\) 是一个 10 阶矩阵,它的初等因子组为

\[
\lambda - 1,\lambda - 1,{\left( \lambda - 1\right) }^{2},{\left( \lambda + 1\right) }^{2},{\left( \lambda + 1\right) }^{3},\lambda - 2.
\]

求 \(A\) 的不变因子组.
\end{example}

\begin{solution}
    将上述多项式分类按降幂排列:
    \begin{align*}
        &{\left( \lambda - 1\right) }^{2},\lambda - 1,\lambda - 1\\
        &{\left( \lambda + 1\right) }^{3},{\left( \lambda + 1\right) }^{2};\\
        &\lambda - 2\text{.}
    \end{align*}
于是
\[
{d}_{3}\left( \lambda \right) = {\left( \lambda - 1\right) }^{2}{\left( \lambda + 1\right) }^{3}\left( {\lambda - 2}\right) ,{d}_{2}\left( \lambda \right) = \left( {\lambda - 1}\right) {\left( \lambda + 1\right) }^{2},{d}_{1}\left( \lambda \right) = \lambda - 1.
\]

从而 \(A\) 的不变因子组为

\[
1,\cdots ,1,\lambda - 1,\left( {\lambda - 1}\right) {\left( \lambda + 1\right) }^{2},{\left( \lambda - 1\right) }^{2}{\left( \lambda + 1\right) }^{3}\left( {\lambda - 2}\right) ,
\]

其中有 7 个 1 .
\end{solution}
\begin{note}
    初等因子组乘积的次数也就是矩阵的阶数.
\end{note}


用初等因子组我们可以得到比有理标准型更精细的标准型. 对每个初等因子 \(p{\left( \lambda \right) }^{\ell}\) ,我们可构造一个比较简单的矩阵,使它的初等因子组就是 \(p{\left( \lambda \right) }^{\ell}\) ,再将所有这样的矩阵拼成一个分块对角阵就可以得到标准型. 显而易见, 数域越 “大”, 则矩阵的初等因子越多, 从而分块也越精细. 我们在这里不打算构造一般数域上以初等因子为基础的标准型, 在下一节中我们将讨论复数域上以初等因子为基础的 Jordan (若当) 标准型.


%%%%%%%%%%%%%%%%----------Jordan 标 准 型

\section{Jordan 标准型}

我们根据上一节末提出的寻找标准型的思想来讨论复数域上的标准型. 由于任一多项式在复数域上均可分解为一次因子的乘积, 因此复数域上的初等因子都是一次因子的幂. 又因为初等因子必是矩阵特征多项式的因式,故必具有 \({\left( \lambda - {\lambda }_{0}\right) }^{r}\) 的形状,其中 \({\lambda }_{0}\) 是矩阵的特征值. 我们先来找一个形状比较简单的矩阵,它的初等因子组就是 \({\left( \lambda - {\lambda }_{0}\right) }^{r}\) .


\begin{lemma}
    $r$阶矩阵
    \[J = J_r(\lambda_0)= \begin{pmatrix}
        {\lambda }_{0} & 1 & & & \\ & {\lambda }_{0} & 1 & & \\ & & \ddots & \ddots & \\ & & & \ddots & 1 \\ & & & & {\lambda }_{0}
    \end{pmatrix}\]
的初等因子组为 \({\left( \lambda - {\lambda }_{0}\right) }^{r}\) .
\end{lemma}
\begin{proof}
    显然 \(J\) 的特征多项式为 \({\left( \lambda - {\lambda }_{0}\right) }^{r}\) . 对任一小于 \(r\) 的正整数 \(k,\lambda \mathbf{I} - J\) 总有一个 \(k\) 阶子式,其值等于 \({\left( -1\right) }^{k}\) ,因此 \(J\) 的行列式因子为

\[
1,\cdots ,1,{\left( \lambda - {\lambda }_{0}\right) }^{r}\text{.}
\]
也是 \(J\) 的不变因子组,故 \(J\) 的初等因子组只有一个多项式 \({\left( \lambda - {\lambda }_{0}\right) }^{r}\) .
\end{proof}

\begin{lemma}\label{lemma:7.6.2}
    设特征矩阵 \(\lambda \mathbf{I} - A\) 经过初等变换化为下列对角阵:
\[\begin{pmatrix}
    {f}_{1}\left( \lambda \right) & & & \\ & {f}_{2}\left( \lambda \right) & & \\ & & \ddots & \\ & & & {f}_{n}\left( \lambda \right) 
\end{pmatrix}\]
其中 \({f}_{i}\left( \lambda \right) \left( {i = 1,\cdots ,n}\right)\) 为非零首一多项式. 将 \({f}_{i}\left( \lambda \right)\) 作不可约分解,若 \({\left( \lambda - {\lambda }_{0}\right) }^{k}\) 能整除 \({f}_{i}\left( \lambda \right)\) ,但 \({\left( \lambda - {\lambda }_{0}\right) }^{k + 1}\) 不能整除 \({f}_{i}\left( \lambda \right)\) ,就称 \({\left( \lambda - {\lambda }_{0}\right) }^{k}\) 是 \({f}_{i}\left( \lambda \right)\) 的一个准素因子,则矩阵 \(A\) 的初等因子组等于所有 \({f}_{i}\left( \lambda \right)\) 的准素因子的集合.
\end{lemma}

\begin{proof}
    第一步, 先证明下列事实:

若 \({f}_{i}\left( \lambda \right) ,{f}_{j}\left( \lambda \right) \left( {i \neq j}\right)\) 的最大公因式和最小公倍式分别为 \(g\left( \lambda \right) ,h\left( \lambda \right)\) ,则

\[
\operatorname{diag}\left\{ {{f}_{1}\left( \lambda \right) ,\cdots ,{f}_{i}\left( \lambda \right) ,\cdots ,{f}_{j}\left( \lambda \right) ,\cdots ,{f}_{n}\left( \lambda \right) }\right\}
\]

经过初等变换可以变为

\[
\operatorname{diag}\left\{ {{f}_{1}\left( \lambda \right) ,\cdots ,g\left( \lambda \right) ,\cdots ,h\left( \lambda \right) ,\cdots ,{f}_{n}\left( \lambda \right) }\right\}
\]

且这两个对角阵具有相同的准素因子组.

不失一般性,令 \(i = 1,j = 2\) . 因为 \(\left( {{f}_{1}\left( \lambda \right) ,{f}_{2}\left( \lambda \right) }\right) = g\left( \lambda \right)\) ,所以存在 \(u\left( \lambda \right) ,v\left( \lambda \right)\) , 使

\[
{f}_{1}\left( \lambda \right) u\left( \lambda \right) + {f}_{2}\left( \lambda \right) v\left( \lambda \right) = g\left( \lambda \right)
\]

又令 \({f}_{1}\left( \lambda \right) = g\left( \lambda \right) q\left( \lambda \right)\) ,则 \(h\left( \lambda \right) = f_1(\lambda)f_2(\lambda)/g(\lambda)=  {f}_{2}\left( \lambda \right) q\left( \lambda \right)\) . 

由于对1,2行与1,2列进行初等变换的时候,其他行,列均未发生变化,故只需考虑如下的二阶矩阵即可
\[\begin{pmatrix}
    f_1(\lambda)&0\\
    0& f_2(\lambda)
\end{pmatrix}\rightarrow \begin{pmatrix}
    f_1(\lambda)&g(\lambda)\\
    0& f_2(\lambda)
\end{pmatrix}   \rightarrow \begin{pmatrix}
    0&g(\lambda)\\
    -f_2(\lambda)q(\lambda)&f_2(\lambda)
\end{pmatrix}\]
\[\rightarrow \begin{pmatrix}
    0&g(\lambda)\\
    -h(\lambda)&0
\end{pmatrix}\rightarrow \begin{pmatrix}
    g(\lambda)&0\\
    0&h(\lambda)
\end{pmatrix}\]

现来考察 \(g\left( \lambda \right)\) 与 \(h\left( \lambda \right)\) 的准素因子. 将 \({f}_{1}\left( \lambda \right) ,{f}_{2}\left( \lambda \right)\) 作标准因式分解,其分解式不妨设为

\[
{f}_{1}\left( \lambda \right) = {\left( \lambda - {\lambda }_{1}\right) }^{{c}_{1}}{\left( \lambda - {\lambda }_{2}\right) }^{{c}_{2}}\cdots {\left( \lambda - {\lambda }_{t}\right) }^{{c}_{t}},
\]

\[
{f}_{2}\left( \lambda \right) = {\left( \lambda - {\lambda }_{1}\right) }^{{d}_{1}}{\left( \lambda - {\lambda }_{2}\right) }^{{d}_{2}}\cdots {\left( \lambda - {\lambda }_{t}\right) }^{{d}_{t}},
\]
其中 \({c}_{i},{d}_{i}\) 为非负整数. 令

\[
{e}_{i} = \max \left\{ {{c}_{i},{d}_{i}}\right\} ,{k}_{i} = \min \left\{ {{c}_{i},{d}_{i}}\right\}
\]

则

\[
g\left( \lambda \right) = {\left( \lambda - {\lambda }_{1}\right) }^{{k}_{1}}{\left( \lambda - {\lambda }_{2}\right) }^{{k}_{2}}\cdots {\left( \lambda - {\lambda }_{t}\right) }^{{k}_{t}},
\]

\[
h\left( \lambda \right) = {\left( \lambda - {\lambda }_{1}\right) }^{{e}_{1}}{\left( \lambda - {\lambda }_{2}\right) }^{{e}_{2}}\cdots {\left( \lambda - {\lambda }_{t}\right) }^{{e}_{t}}.
\]

不难看出 \(g\left( \lambda \right) ,h\left( \lambda \right)\) 的准素因子组与 \({f}_{1}\left( \lambda \right) ,{f}_{2}\left( \lambda \right)\) 的准素因子组相同.

第二步证明 引理中所示矩阵的法式可通过上述变换得到.

先将第 \(\left( {1,1}\right)\) 位置的元素依次和第 \(\left( {2,2}\right)\) 位置, \(\cdots\) ,第 \(\left( {n,n}\right)\) 位置的元素进行上述变换,此时第 \(\left( {1,1}\right)\) 元素的所有一次因式的幂都是最小的; 再将第 \(\left( {2,2}\right)\) 位置的元素依次和第 \(\left( {3,3}\right)\) 位置, \(\cdots\) ,第 \(\left( {n,n}\right)\) 位置的元素进行上述变换; \(\cdots\) ; 最后将第 \(\left( {n - 1,n - 1}\right)\) 位置的元素和第 \(\left( {n,n}\right)\) 位置的元素进行上述变换. 可以看出. 最后得到的对角阵就是 引理所式所示矩阵的法式. 注意到在每一次变换的过程中, 准素因子组都保持不变, 这就证明了结论.
\end{proof}
\begin{note}
    引理 \ref{lemma:7.6.2} 给出了求矩阵初等因子组的另外一个方法, 它可以不必先求不变因子组而直接用初等变换把特征矩阵化为对角阵, 再分解主对角线上的多项式即可. 另外,引理 \ref{lemma:7.6.2} 的结论及其证明在一般的数域 \(\mathbb{K}\) 上也成立.
\end{note}

\begin{example}
    设 \(\lambda \mathbf{I} - A\) 经过初等变换后化为下列对角阵:
    \[\begin{pmatrix}
        1 & & & & & \\
         & {\left( \lambda - 1\right) }^{2}\left( {\lambda + 2}\right) & & & & \\
          & & \left( {\lambda + 2}\right) & & & \\ 
          & & & 1 & & \\ 
          & & & & \left( {\lambda - 1}\right) & 
    \end{pmatrix}\]
    求 \(A\) 的初等因子组. 
\end{example}
\begin{solution}
    \(A\) 的初等因子组为 \(\lambda - 1,{\left( \lambda - 1\right) }^{2},\lambda + 2,\lambda + 2\) .
\end{solution}


\begin{lemma}\label{lemma:7.6.3}
设 \(J\) 是分块对角阵:
\[\begin{pmatrix}
    {J}_{1} & & & \\ & {J}_{2} & & \\ & & \ddots & \\ & & & {J}_{k}
\end{pmatrix}\]
其中每个 \({J}_{i}\) 都是形如引理 7.6.1 中的矩阵, \({J}_{i}\) 的初等因子组为 \({\left( \lambda - {\lambda }_{i}\right) }^{{r}_{i}}\) ,则 \(J\) 的初等因子组为
\[
{\left( \lambda - {\lambda }_{1}\right) }^{{r}_{1}},{\left( \lambda - {\lambda }_{2}\right) }^{{r}_{2}},\cdots ,{\left( \lambda - {\lambda }_{k}\right) }^{{r}_{k}}.
\]
\end{lemma}
\begin{proof}
    \(\lambda \mathbf{I} - J\) 是一个分块对角 \(\lambda\) -矩阵. 由于对分块对角阵中某一块施行初等变换时其余各块保持不变,因此 \(\lambda \mathbf{I} - J\) 相抵于下列分块对角阵:
    \[H = \begin{pmatrix}
        {H}_{1} & & & \\ & {H}_{2} & & \\ & & \ddots & \\ & & & {H}_{k}
    \end{pmatrix}\]
    其中 \({H}_{i} = \operatorname{diag}\left\{ {1,\cdots ,1,{\left( \lambda - {\lambda }_{i}\right) }^{{r}_{i}}}\right\}\) . 再由引理\ref{lemma:7.6.2} 即得结论.
\end{proof}



\begin{theorem}\label{theorem:7.6.1}
    设 \(A\) 是复数域上的矩阵且 \(A\) 的初等因子组为

\[
{\left( \lambda - {\lambda }_{1}\right) }^{{r}_{1}},{\left( \lambda - {\lambda }_{2}\right) }^{{r}_{2}},\cdots ,{\left( \lambda - {\lambda }_{k}\right) }^{{r}_{k}}
\]

则 \(A\) 相似于分块对角阵:
\begin{align}\label{equation:7.4}
    J = \begin{pmatrix}
        {J}_{1} & & & \\ & {J}_{2} & & \\ & & \ddots & \\ & & & {J}_{k}
    \end{pmatrix}
\end{align}

其中 \({J}_{i}\) 为 \({r}_{i}\) 阶矩阵,且
\[J_i = \begin{pmatrix}
    {\lambda }_{i} & 1 & & & \\ & {\lambda }_{i} & 1 & & \\ & & \ddots & \ddots & \\ & & & \ddots & 1 \\ & & & & {\lambda }_{i}
\end{pmatrix}\]
\end{theorem}
\begin{proof}
    由引理 \ref{lemma:7.6.3} 知道 \(A\) 与 \(J\) 有相同的初等因子组,因此 \(A\) 与 \(J\) 相似(初等因子组是相似关系下的全系不变量). 
\end{proof}


\begin{definition}
    \eqref{equation:7.4}式中的矩阵 \(J\) 称为 \(A\) 的 Jordan 标准型,每个 \({J}_{i}\) 称为 \(A\) 的一个 Jordan 块.
\end{definition}


由引理 \ref{lemma:7.6.3} 我们可以看出, 若交换任意两个 Jordan 块的位置, 得到的矩阵与原来的矩阵仍有相同的初等因子组,它们仍相似. 因此矩阵 \(A\) 的 Jordan 标准型中 Jordan 块的排列可以是任意的. 但是, 由于每个初等因子唯一确定了一个 Jordan 块, 故若不计 Jordan 块的排列次序, 则矩阵的 Jordan 标准型是唯一确定的.

至此, 我们对复数域上线性空间的线性变换解决了在第四章中提出的问题: 求 \(V\) 的一组基,使该线性变换在这组基下的表示矩阵具有简单的形式. 我们把这一结果叙述为下列定理.




\begin{theorem}\label{theorem:7.6.2}
    设 \(\varphi\) 是复数域上线性空间 \(V\) 上的线性变换,则必存在 \(V\) 的一组基,使得 \(\varphi\) 在这组基下的表示矩阵为 \eqref{equation:7.4} 式所示的 Jordan 标准型.
\end{theorem}




\begin{corollary}
    设 \(A\) 是 \(n\) 阶复矩阵,则下列结论等价:
\begin{enumerate}[(1)]
    \item \(A\) 可对角化;
    \item \(A\) 的极小多项式无重根;
    \item \(A\) 的初等因子都是一次多项式(或Jordan都是一阶的).
\end{enumerate}
\end{corollary}
\begin{proof}
    (1) $ \Rightarrow$ (2),由例题\ref{example:6.9}可知结论成立;
    
    (2) $ \Rightarrow$ (3), 设 \(A\) 的极小多项式 \(m\left( \lambda \right)\) 无重根. 由于 \(m\left( \lambda \right)\) 是 \(A\) 的最后一个不变因子\footnote{引理\ref{lemma:7.4.1}的(2),不变因子在整除关系下最大的即为极小多项式.},故 \(A\) 的所有不变因子都无重根,故所有不变因子的准素因子都是一次的,从而 \(A\) 的初等因子都是一次多项式.

    (3) $ \Rightarrow$ (1), 设 \(A\) 的初等因子组为 \(\lambda - {\lambda }_{1},\lambda - {\lambda }_{2},\cdots ,\lambda - {\lambda }_{n}\) ,则由定理 \ref{theorem:7.6.1}, \(A\) 相似于对角阵 \(\operatorname{diag}\left\{ {{\lambda }_{1},{\lambda }_{2},\cdots ,{\lambda }_{n}}\right\}\) ,即 \(A\) 可对角化.
\end{proof}


我们将上述推论 的几何版本叙述如下.
\begin{corollary}
    设 \(\varphi\) 是复线性空间 \(V\) 上的线性变换,则 \(\varphi\) 可对角化当且仅当 \(\varphi\) 的极小多项式无重根,当且仅当 \(\varphi\) 的初等因子都是一次多项式.
\end{corollary}






\begin{proposition}\label{proposition:7.6.1}
    设 \(\varphi\) 是复线性空间 \(V\) 上的线性变换, \({V}_{0}\) 是 \(\varphi\) 的不变子空间. 如果 \(\varphi\) 可对角化,则 \(\varphi\) 在 \({V}_{0}\) 上的限制也可对角化.
\end{proposition}

\begin{proof}
    设$ \varphi$的极小多项式为$ m(\lambda)$,$ \left.\varphi\right|_{V_{0}}$的极小多项式为$ g(\lambda)$.则 
    \[m(\left.\varphi\right|_{V_{0}}) = 
    \left.m(\varphi)\right|_{V_{0}} = 0,\]
    由极小多项式性质(极小多项式整除任意适合的多项式)得到 
    \[g(\lambda)\mid m(\lambda),\]
    若$ \varphi$可对角化,则$ m(\lambda)$无重根,故$ g(\lambda)$也没有重根.从而$ \left.\varphi\right|_{V_{0}}$也可对角化.
\end{proof}


\begin{corollary}
    若 
    \[M = \begin{pmatrix}
        A&C\\
        O&B
    \end{pmatrix},\]
    可对角化,$ A,B$分别为$ n,m$阶方阵,则$ A,B$均可对角化.
\end{corollary}
\begin{proof}
    设$ M$的极小多项式为$ m(\lambda)$,则有 
    \[0 = m(M) = \begin{pmatrix}
        m(A)&*\\
        O&m(B)
    \end{pmatrix},\] 
    从而 $ m(A) = m(B) = 0$.由极小多项式的性质可知
    \[m_A(\lambda)\mid m(\lambda), m_B(\lambda)\mid m(\lambda).\]
    由于$ M$可对角化,则$ m(\lambda)$无重根,从而$ m_A(\lambda)$和$ m_B(\lambda)$也无重根,故$ A,B$均可对角化.
\end{proof}


\begin{proposition}
    设 \(\varphi\) 是复线性空间 \(V\) 上的线性变换,且 \(V = {V}_{1} \oplus {V}_{2} \oplus \cdots \oplus {V}_{k}\) , 其中每个 \({V}_{i}\) 都是 \(\varphi\) 的不变子空间,则 \(\varphi\) 可对角化的充分必要条件是 \(\varphi\) 在每个 \({V}_{i}\) 上的限制都可对角化.
\end{proposition}

\begin{proof}
    必要性由命题\ref{proposition:7.6.1} 即得,下证充分性. 若 \(\varphi\) 在每个 \({V}_{i}\) 上的限制都可对角化,由定义存在 \({V}_{i}\) 的一组基,使得 \({\left. \varphi \right| }_{{V}_{i}}\) 在这组基下的表示矩阵是对角阵. 由于 \({V}_{i}\) 的一组基可以拼成 \(V\) 的一组基,因此 \(\varphi\) 在这组基下的表示阵是对角阵,即 \(\varphi\) 可对角化.
\end{proof}


上述命题的代数版本如下:
\begin{corollary}
    设$ A = \begin{pmatrix}
        A_1&&&\\
        &A_2&&\\
        &&\ddots&\\
        &&&A_n
    \end{pmatrix}$,$ A$可对角化$ \Leftrightarrow$ $ A_1,A_2, \cdots, A_n $均可对角化.
\end{corollary}



\begin{corollary}
    设 \(A\) 是数域 \(\mathbb{K}\) 上的矩阵,如果 \(A\) 的特征值全在 \(\mathbb{K}\) 中,则 \(A\) 在 \(\mathbb{K}\) 上相似于其 Jordan 标准型.
\end{corollary}
\begin{proof}
    由于 \(A\) 的特征值全在 \(\mathbb{K}\) 中,故 \(A\) 的 Jordan 标准型 \(J\) 实际上是 \(\mathbb{K}\) 上的矩阵. 因为 \(A\) 在复数域上相似于 \(J\) ,由相似关系在基域扩张下的不变性(推论\ref{corollary:7.3.3})知 \(A\) 在 \(\mathbb{K}\) 上也相似于 \(J\) . 
\end{proof}


\begin{example}
    设 \(A\) 是 7 阶矩阵,其初等因子组为

\[
\lambda - 1,{\left( \lambda - 1\right) }^{3};{\left( \lambda + 1\right) }^{2};\lambda - 2.
\]

求其 Jordan 标准型.
\end{example}
\begin{solution}
    \(A\) 的 Jordan 标准型为
\[J = \begin{pmatrix}
    1 & & & & & & \\ & 1 & 1 & 0 & & & \\ & 0 & 1 & 1 & & & \\ & 0 & 0 & 1 & & & \\ & & & & - 1 & 1 & \\ & & & & 0 & - 1 & \\ & & & & & & 2 
\end{pmatrix}\]
\(J\) 含有 4 个 Jordan 块.
\end{solution}



\begin{example}
    设复数域上的四维线性空间 \(V\) 上的线性变换 \(\varphi\) 在一组基 \(\left\{ {{e}_{1},{e}_{2}}, {{e}_{3},{e}_{4}}\right\}\) 下的表示矩阵为
    \[A = \begin{pmatrix}
        3 & 1 & 0 & 0 \\ - 4 & - 1 & 0 & 0 \\ 6 & 1 & 2 & 1 \\ - {14} & - 5 & - 1 & 0
    \end{pmatrix}\]
    求 \(V\) 的一组基,使 \(\varphi\) 在这组基下的表示矩阵为 Jordan 标准型,并求出从原来的基到新基的过渡矩阵.
\end{example}
\begin{solution}
    求解思路:要求Jordan 标准型,首先要求出初等因子组,则要求出不变因子组,即要求出法式.

    \[\lambda I-A = \begin{pmatrix}
        \lambda-3&-1&0&0\\
        4&\lambda+1&0&0\\
        -6&-1&\lambda-2&-1\\
        14&5&1&\lambda
    \end{pmatrix}\rightarrow \begin{pmatrix}
        14&5&1&\lambda\\
        4&\lambda+1&0&0\\
        -6&-1&\lambda-2&-1\\
        \lambda-3&-1&0&0
    \end{pmatrix}\rightarrow \begin{pmatrix}
        1&5&14&\lambda\\
        0&\lambda+1&4&0\\
        \lambda-2&-1&-6&-1\\
        0&-1&\lambda-3&0
    \end{pmatrix}\]
    通过上述初等变换,将1放到了(1,1)位置(它是在整除关系下最小的),接下来利用1将同行同列其他元素消为零.
    \[\rightarrow\begin{pmatrix}
        1&0&0&0\\
        0&\lambda+1&4&0\\
        0&-5\lambda+9&-14\lambda+22&-(\lambda-1)^2\\
        0&-1&\lambda-3&0
    \end{pmatrix}\rightarrow \begin{pmatrix}
        1&0&0&0\\
        0&-1&\lambda-3&0\\
        0&-5\lambda+9&-14\lambda+22&-(\lambda-1)^2\\
        0&\lambda+1&4&0
    \end{pmatrix},\]
    再利用-1将同行同列其他元素消为零得到
    \[\rightarrow\begin{pmatrix}
        1&0&0&0\\
        0&-1&0&0\\
        0&0&-5\lambda^2+10\lambda-5&-(\lambda-1)^2\\
        0&0&\lambda^2-2\lambda+1&0
    \end{pmatrix}\rightarrow \begin{pmatrix}
        1&0&0&0\\
        0&1&0&0\\
        0&0&(\lambda-1)^2&0\\
        0&0&0&(\lambda-1)^2
    \end{pmatrix}\]
    得到不变因子为$ 1,1,(\lambda-1)^2, (\lambda-1)^2$,于是初等因子为 $ (\lambda-1)^2, (\lambda-1)^2$.得到Jordan标准型为 
    \[J = \begin{pmatrix}
        1&1&&\\
        0&1&&\\
        &&1&1\\
        &&0&1
    \end{pmatrix}.\]
    设$ P = (\alpha_1, \alpha_2, \alpha_3, \alpha_4)$,由于$ P^{-1}AP = J$得到 
    \[AP = PJ,\]
    即 
    \[\begin{cases}
        A \alpha_1 = \alpha_1,\\
        A \alpha_2 = \alpha_1 + \alpha_2,\\
        A \alpha_3 = \alpha_3,\\
        A \alpha_4 = \alpha_3 + \alpha_4.
    \end{cases}\]
    注意到$ \alpha_1,\alpha_3$是$ A$的特征值为1的特征向量,并且是线性无关的.于是可以求解如下的齐次线性方程组:
    \[(I-A)x = 0,\]
    以其中两个线性无关的解作为$ \alpha_1,\alpha_3$.再求解出$ \alpha_2,\alpha_4$.

\[I - A = \begin{pmatrix}
    -2&-1&0&0\\
    4&2&0&0\\
    -6&-1&-1&-1\\
    14&5&1&1
\end{pmatrix}\rightarrow \begin{pmatrix}
    -2&-1&0&0\\
    0&0&0&0\\
    0&2&-1&-1\\
    0&-2&1&1
\end{pmatrix}\rightarrow\begin{pmatrix}
    -2&-1&0&0\\
    0&-2&1&1\\
    0&2&-1&-1\\
    0&0&0&0
\end{pmatrix}\]
\[\rightarrow \begin{pmatrix}
    -2&-1&0&0\\
    0&-2&1&1\\
    0&0&0&0\\
    0&0&0&0
\end{pmatrix}\]
其中$ x_3,x_4$是自由变量,得到 
\[\alpha_1 = \begin{pmatrix}
    1\\
    -2\\
    -4\\
    0
\end{pmatrix},\alpha_3 = \begin{pmatrix}
    0\\
    0\\
    1\\
    -1
\end{pmatrix},\]
分别将$ \alpha_1, \alpha_3$代入上述方程组,求解两个非齐次线性方程组即可得到$ \alpha_2,\alpha_4$.
\[\alpha_2=\begin{pmatrix}
    -\frac{5}{4}\\
    \frac{7}{2}\\
    0\\
    0
\end{pmatrix},\alpha_4 = \begin{pmatrix}
    \frac{1}{4}\\
    -\frac{1}{2}\\
    0\\
    0
\end{pmatrix}.\]
于是\[P = \begin{pmatrix}
    1&-\frac{5}{4}&0&\frac{1}{4}\\
    -2&\frac{7}{2}&0&-\frac{1}{2}\\
    -4&0&1&0\\
    0&0&-1&0
\end{pmatrix},\]
新的一组基即为
\[\left\{ e_1-2e_2-4e_3,-\frac{5}{4}e_1+\frac{7}{2}e_2,e_3-e_4,\frac{1}{4}e_1-\frac{1}{2}e_2\right\}.\]
\end{solution}

%%%%%%%%%%------Jordan 标准型的进一步讨论和应用
\section{Jordan 标准型的进一步讨论和应用}

在这一节里, 我们要用 Jordan 标准型更仔细地来考察复线性空间按线性变换 \(\varphi\) 所做的直和分解以及 \(\varphi\) 特征值的度数和重数与 Jordan 标准型之间的关系, 并给出 Jordan 标准型应用的一些例子.

设 \(V\) 是 \(n\) 维复线性空间, \(\varphi\) 是 \(V\) 上的线性变换. 设 \(\varphi\) 的初等因子组为

\[
{\left( \lambda - {\lambda }_{1}\right) }^{{r}_{1}},{\left( \lambda - {\lambda }_{2}\right) }^{{r}_{2}},\cdots ,{\left( \lambda - {\lambda }_{k}\right) }^{{r}_{k}}
\]


定理\ref{theorem:7.6.2} 告诉我们,存在 \(V\) 的一组基 \(\left\{ {{e}_{11},{e}_{12},\cdots ,{e}_{1{r}_{1}};{e}_{21},{e}_{22},\cdots ,{e}_{2{r}_{2}};\cdots }\right.\) ; \(\left. {{e}_{k1},{e}_{k2},\cdots ,{e}_{k{r}_{k}}}\right\}\) ,使得 \(\varphi\) 在这组基下的表示矩阵为
\[J = \begin{pmatrix}
    {J}_{1} & & & \\ & {J}_{2} & & \\ & & \ddots & \\ & & & {J}_{k} 
\end{pmatrix}\]
上式中每个 \({J}_{i}\) 是相应于初等因子 \({\left( \lambda - {\lambda }_{i}\right) }^{{r}_{i}}\) 的 Jordan 块,其阶正好为 \({r}_{i}\) . 令 \({V}_{i}\) 是由基元 \({e}_{i1},{e}_{i2},\cdots ,{e}_{i{r}_{i}}\) 生成的子空间,则

\begin{equation}\label{equation:7.5}
    \begin{aligned}
    \varphi \left( {e}_{i1}\right) &= {\lambda }_{i}{e}_{i1}\\
    \varphi \left( {e}_{i2}\right) &= {e}_{i1} + {\lambda }_{i}{e}_{i2}\\
    &\cdots\\
    \varphi \left( {e}_{i{r}_{i}}\right) &= {e}_{i{r}_{i} - 1} + {\lambda }_{i}{e}_{i{r}_{i}}
    \end{aligned}
\end{equation}
这表明 \(\varphi \left( {V}_{i}\right) \subseteq {V}_{i}\) ,即 \({V}_{i}\left( {i = 1,2,\cdots ,k}\right)\) 是 \(\varphi\) 的不变子空间. 

显然(诸$ V_i$的基可以拼成$ V$的一组基)我们有
\[
V = {V}_{1} \oplus {V}_{2} \oplus \cdots \oplus {V}_{k}
\]


线性变换 \(\varphi\) 限制在 \({V}_{1}\) 上 (仍记为 \(\varphi\) ) 便成为 \({V}_{1}\) 上的线性变换. 这个线性变换在基 \(\left\{ {{e}_{11},{e}_{12},\cdots ,{e}_{1{r}_{1}}}\right\}\) 下的表示矩阵为
\[J_1=\begin{pmatrix}
    {\lambda }_{1} & 1 & & & \\ & {\lambda }_{1} & 1 & & \\ & & \ddots & \ddots & \\ & & & \ddots & 1 \\ & & & & {\lambda }_{1}
\end{pmatrix}\]
\({J}_{1}\) 的特征值为 \({\lambda }_{1}\) ,由于 \( {J}_{1}-{\lambda }_{1}\mathbf{I}\) 是一个秩为 \({r}_{1} - 1\) 的矩阵,因此 \({J}_{1}\) 只有一个线性无关的特征向量,不妨选为 \({e}_{11}\) . 显然 \({e}_{11}\) 也是 \(\varphi\) 作为 \(V\) 上线性变换关于特征值 \({\lambda }_{1}\) 的特征向量.


不失一般性,不妨设在 \(\varphi\) 的初等因子组中
\[
{\lambda }_{1} = {\lambda }_{2} = \cdots = {\lambda }_{s},{\lambda }_{i} \neq {\lambda }_{1}\left( {i = s + 1,\cdots ,k}\right) ,\]
此时,$ \varphi$的特征多项式可以写为
\[f(\lambda) = (\lambda-\lambda_1)^{r_1+r_2+\cdots+r_s}(\lambda-\lambda_{s+1})^{s+1}\cdots (\lambda-\lambda_k)^{r_k}),\]
从而$ \lambda_1$的代数重数等于$ r_1+ r_2+\cdots+r_s$,即为属于特征值$ \lambda_1$的Jordan块的阶数之和.


\({J}_{1},\cdots ,{J}_{s}\) 都以 \({\lambda }_{1}\) 为特征值,且相应于每一块有且只有一个线性无关的特征向量. 相应的特征向量可取为
\[
{e}_{11},{e}_{21},\cdots ,{e}_{s1}
\]


显然这是 \(s\) 个线性无关的特征向量. 如果 \({\lambda }_{i} \neq {\lambda }_{1}\) ,则容易看出 \(\mathrm{r}\left( { {J}_{i}-{\lambda }_{1}\mathbf{I} }\right) = {r}_{i}\) , 于是
\[
\mathrm{r}\left( { J-{\lambda }_{1}\mathbf{I} }\right) = \mathop{\sum }\limits_{{i = 1}}^{k}\mathrm{r}\left( { {J}_{i}-{\lambda }_{1}\mathbf{I} }\right) = \left( {{r}_{1} - 1}\right) + \cdots + \left( {{r}_{s} - 1}\right) + {r}_{s + 1} + \cdots + {r}_{k} = n - s.
\]

$ \lambda_1$的几何重数根据定义为
\[\dim V_{\lambda_1}  = \dim \operatorname{Ker}(\varphi - \lambda_1 I_V) = \dim (\varphi - \lambda_1 I_V)-\dim \operatorname{Im}(\varphi- \lambda_1 I_V) = n-\mathrm{r}( \varphi- \lambda_1 I_V),\]
线性变换的秩与其表示矩阵的秩是相同的,故可以选择Jordan 标准型$ J$作为$ \varphi$的表示矩阵,即要求出$ J - \lambda_1 I_n$的秩.根据上面的讨论可知$ \mathrm{r}(J-\lambda_1 I_n) = n-s$,从而 
\[\dim V_{\lambda_1} = n-(n-s)=s,\]
于是$ \lambda_1$的几何重数即为$ s$,即为属于特征值$ \lambda_1$的Jordan块的个数.

\begin{note}
    同时$ {e}_{11},{e}_{21},\cdots ,{e}_{s1}$也是$ \lambda_1$的特征子空间$ V_{\lambda_1}$的一组基(由于这$ s$个特征向量\footnote{即这$ s$个子空间$ V_i$的第一个基向量(是属于$ \lambda_1$的特征向量).}是整个空间$ V$的基向量的一部分,因此是线性无关的,同时$ \dim V_{\lambda_1}= s$,从而是$ V_{\lambda_1}$的一组基).
\end{note}

我们把上述结论写成如下定理.


\begin{theorem}
    线性变换 \(\varphi\) 的特征值\({\lambda }_{1}\) 的代数重数等于所有属于特征值 \({\lambda }_{1}\) 的 Jordan 块的阶数之和, \({\lambda }_{1}\) 的几何等于 \(\varphi\) 的 Jordan 标准型中属于特征值 \({\lambda }_{1}\) 的 Jordan 块的个数.
\end{theorem}

对于\eqref{equation:7.5}式,定义一个新的线性变换,令 
\[\psi = \varphi - \lambda_i I_V,\]
由\eqref{equation:7.5}式可得 
\begin{align*}
    \psi(e_{i1}) &= 0\\
    \psi(e_{i2}) &= e_{i1} \\
    \vdots  & \\
    \psi(e_{ir_i})& = e_{i,r_{i}-1}
\end{align*}

从最后一个$ e_{ir_i}$开始作用$ \psi$可以得到如下的循环链
\[e_{ir_i} \xrightarrow{\psi} e_{i,r_i-1} \xrightarrow{\psi} \cdots \xrightarrow{\psi} e_{i2} \xrightarrow{\psi} e_{i1} \xrightarrow{\psi} 0,\]
从而$ \{e_{ir_i},\psi(e_{ir_i}),\psi^2(e_{ir_i}),\cdots,\psi^{r-1}(e_{ir_i})\}$构成了$ V_i$的一组基.于是 $ V_i$是关于$ \psi  = \varphi - \lambda_i I_V$的循环子空间,其循环向量是$ e_{ir_i}$.


\begin{definition}[循环子空间]
    设 \({V}_{0}\) 是线性空间 \(V\) 的 \(r\) 维子空间, \(\psi\) 是 \(V\) 上线性变换. 若存在 \(0\neq \alpha \in {V}_{0}\) ,使 \(\left\{ {\alpha,\mathbf{\psi }\left( \alpha\right) ,\cdots ,{\mathbf{\psi }}^{r - 1}\left( \alpha\right) }\right\}\) 构成 \({V}_{0}\) 的一组基,则称 \({V}_{0}\) 为关于线性变换 \(\psi\) 的循环子空间,$ \alpha$称为循环向量.
\end{definition}


上面的事实说明, 每个 Jordan 块对应的子空间是一个循环子空间. 把属于同一个特征值,比如属于 \({\lambda }_{1}\) 的所有循环子空间加起来组成 \(V\) 的一个子空间.

\begin{lemma}
    设$ R(\lambda_1) = {V}_{1} \oplus \cdots \oplus {V}_{s}$,则 
    \[R(\lambda_1) = \operatorname{Ker}(\varphi-\lambda_1 I_V)^n = \{v\in V|(\varphi-\lambda_1 I_V)^n(v) = 0\}.\]
\end{lemma}
\begin{proof}
    先证 $ R(\lambda_1)\subseteq \operatorname{Ker}(\varphi-\lambda_1 I_V)^n$.任取$ v\in R(\lambda_1)$,有$ v = v_1+\cdots +v_s,v_i\in V_i$.

    设$ \dim V_i = r_i$,考虑$ V_i$的一组基$ \{e_{i1},e_{i2},\cdots ,e_{ir_i}\}$,根据上述循环链的结论可以得到 
    \[e_{ir_i}\xrightarrow{\varphi-\lambda_1 I_V}e_{i,r_i-1} \xrightarrow{\varphi-\lambda_1 I_V} \cdots \xrightarrow{\varphi-\lambda_1 I_V}e_{i2} \xrightarrow{\varphi-\lambda_1 I_V}e_{i1} \xrightarrow{\varphi-\lambda_1 I_V}0,\]
    从而有 
    \[(\varphi-\lambda_1 I_V)^{r_i}(e_{ij}) = 0,\forall j,\]
    于是 
    \[(\varphi-\lambda_1 I_V)^{r_i})(v_i) = 0,\]
    可以得到 
    \[(\varphi-\lambda_1 I_V)^n(v) = (\varphi-\lambda_1 I_V)^n (v_1)+ \cdots + (\varphi-\lambda_1 I_V)^n (v_s) = 0.\]

    再证 $\operatorname{Ker}(\varphi-\lambda_1 I_V)^n \subseteq R(\lambda_1)$.设$ v\in V$在基下坐标向量为$ x = (x_{11},x_{12},\cdots,x_{1r_i};\cdots ;x_{k1},x_{k2},\cdots,x_{kr_k})'$.

    即求$ (J- \lambda_1 I_n)^nx = 0$的解.注意到 
    \[\left(J_{r_i}(\lambda_1) - \lambda_1 I_{r_i}\right)^n = \begin{pmatrix}
        \lambda_i-{\lambda }_{1} & 1 & & & \\
         & \lambda_i-{\lambda }_{1} & 1 & & \\ 
         & & \ddots & \ddots & \\ 
         & & & \ddots & 1 \\
          & & & &\lambda_i- {\lambda }_{1}
    \end{pmatrix}^n = \begin{cases}
        0,1\leq i\leq s\\
        \text{非异},s<i\leq k
    \end{cases}\]
    (零矩阵所对应的 解空间为全空间).

    从而$ x_{i1} = x_{i2} = \cdots = x_{ir_i} = 0,\forall s<i\leq k$.

    $ (x_{11},\cdots ,x_{1r_1};\cdots;x_{s1},x_{s2},\cdots,x_{sr_s})$为任意解.于是 \[\operatorname{Ker}( \varphi-\lambda_1 I_V)^n= V_1\oplus V_2 \oplus \cdots \oplus V_s = R(\lambda_1).\]
\end{proof}
\begin{note}
    事实上,这里的$ n$只需要取$ \max\{ r_1,r_2,\cdots ,r_s\}$即可.
\end{note}


\begin{definition}
    设 \({\lambda }_{0}\) 是 \(n\) 维复线性空间 \(V\) 上线性变换 \(\varphi\) 的特征值,则

\[
R\left( {\lambda }_{0}\right) = \left\{ {\mathbf{v} \in V \mid {\left( \mathbf{\varphi } - {\lambda }_{0}\mathbf{I}\right) }^{n}\left( \mathbf{v}\right) = \mathbf{0}}\right\} = \operatorname{Ker}(\varphi - \lambda_0 I)^n.
\]
构成了 \(V\) 的一个子空间,称为属于特征值 \({\lambda }_{0}\) 的根子空间.
\end{definition}
\begin{note}
    特征子空间总是包含在根子空间里,即有 
    \[V_{\lambda_0} = \operatorname{Ker}( \varphi - \lambda_0 I)\subseteq R(\lambda_0).\]

    若上面两个子空间相等,只需考虑其维数相等即可.
    \[\dim V_{\lambda_0} =\text{几何重数}, \dim R(\lambda_0) =\text{代数重数}.\]
\end{note}


上面的结果表明: 特征值 \({\lambda }_{0}\) 的根子空间可表示为若干个循环子空间的直和, 每个循环子空间对应于一个 Jordan 块.


\begin{corollary}
    设$ \varphi\in \mathcal{L}(V_{\mathbb{C}})$可对角化 $ \Leftrightarrow$对任一特征值$ \lambda_0$有$ R(\lambda_0) = V_{\lambda_0}$.
\end{corollary}
\begin{proof}对任一$ \lambda_0$有
    $ R(\lambda_0) = V_{\lambda_0}$$ \Leftrightarrow$ $\dim R(\lambda_0) = \dim V_{\lambda_0} $ $ \Leftrightarrow$ $ \lambda_0$的代数重数等于几何重数$ \Leftrightarrow$ $ \varphi$有完全的特征向量系$ \Leftrightarrow$$ \varphi$可对角化.
\end{proof}




虽然我们前面的讨论是对特征值 \({\lambda }_{1}\) 进行的,其实对任一特征值 \({\lambda }_{i}\) 均适用. 因此便有如下的定理.

\begin{theorem}
    设 \(\varphi\) 是 \(n\) 维复线性空间 \(V\) 上的线性变换.
    \begin{enumerate}[(1)]
        \item 若 \(\varphi\) 的初等因子组为

        \[
        {\left( \lambda - {\lambda }_{1}\right) }^{{r}_{1}},{\left( \lambda - {\lambda }_{2}\right) }^{{r}_{2}},\cdots ,{\left( \lambda - {\lambda }_{k}\right) }^{{r}_{k}}
        \]
        
        则 \(V\) 可分解为 \(k\) 个不变子空间的直和:
        \[
V = {V}_{1} \oplus {V}_{2} \oplus \cdots \oplus {V}_{k}
\]
其中 \({V}_{i}\) 的维数等于 \({r}_{i}\) 且是 \(\varphi - {\lambda }_{i}I\) 的循环子空间;
\item 若 \({\lambda }_{1},\cdots ,{\lambda }_{s}\) 是 \(\varphi\) 的全体不同特征值,则 \(V\) 可分解为 \(s\) 个不变子空间的直和:

\[
V = R\left( {\lambda }_{1}\right) \oplus R\left( {\lambda }_{2}\right) \oplus \cdots \oplus R\left( {\lambda }_{s}\right)
\]
其中 \(R\left( {\lambda }_{i}\right)\) 是 \({\lambda }_{i}\) 的根子空间, \(R\left( {\lambda }_{i}\right)\) 的维数等于 \({\lambda }_{i}\) 的重数.
    \end{enumerate}
\end{theorem}




矩阵问题条件和结论在相似关系下不改变,则可将此问题化约到Jordan标准型,进一步化约到Jordan块进行证明.具体步骤如下:
\[\text{Jordan块成立}\Rightarrow \text{Jordan 标准型成立}\Rightarrow \text{一般矩阵问题成立}.\]



下面我们举例说明 Jordan 标准型在矩阵理论中的应用.

\begin{example}
    证明: 复数域上的方阵 \(A\) 必可分解为两个对称阵的乘积.
\end{example}
\begin{proof}
    设 \(P\) 是非异阵且使 \({P}^{-1}AP = J = \operatorname{diag}\{J_{r_1}(\lambda_1),J_{r_2}(\lambda_2),\cdots,J_{r_k}(\lambda_k)\}\) 为 \(A\) 的 Jordan 标准型. 于是 \(A =\) \(PJ{P}^{-1}\) . 设 \({J}_{i}\) 是 \(J\) 的第 \(i\) 个 Jordan 块,则
    \[J_{r_i}(\lambda_i) = \begin{pmatrix}
        {\lambda }_{i} & 1 & & & \\ & {\lambda }_{i} & 1 & & \\ & & \ddots & \ddots & \\ & & & \ddots & 1 \\ & & & & {\lambda }_{i}
    \end{pmatrix} = \begin{pmatrix}
        & & & 1 & {\lambda }_{i} \\ & & 1 & {\lambda }_{i} & \\ & . & . & & \\ & . & . & & \\ 1 & . & & & \\ {\lambda }_{i} & & & &
    \end{pmatrix}\begin{pmatrix}
        & & & & 1 \\ & & & 1 & \\ & . & . & & \\ & . & . & & \\ & . & . & & \\ 1 & & & &
    \end{pmatrix},\]
    即 \({J}_{i}\) 可分解为两个对称阵$ S_i,T_i$之积,令
    \[S = \operatorname{diag}\{S_1,S_2,\cdots,S_k\},T = \operatorname{diag}\{T_1,T_2,\cdots,T_k\}.\]
    于是 \(J\) 也可以分解为两个对称阵之积,分别为$ S,T$.
    从而 
    \[A= PJP^{-1} = PSTP^{-1} = (PSP')((P^{-1})'TP^{-1}).\]
\end{proof}



\begin{example}
    设$ A\in \mathcal{M}_n(\mathbb{C})$,
    求$ A^k,k\geq 1$.
\end{example}
\begin{solution}
     存在非异阵$ P$使得$ P^{-1}AP = J = \operatorname{diag}\{J_{r_1}(\lambda_1), J_{r_2}(\lambda_2),\cdots,J_{r_k}(\lambda_k) \}$.则 
     \[A^k = ( PJP^{-1})^k =  PJ^kP^{-1} = P\operatorname{diag}\{J_{r_1}(\lambda_1)^k, J_{r_2}(\lambda_2)^k,\cdots,J_{r_k}(\lambda_k)^k \}P^{-1}.\]

     下面计算第$ i$个  Jordan块$ J_{r_i}(\lambda_i)$的$ k$次幂.

     \[J_{r_i} (\lambda_i) = \begin{pmatrix}
        {\lambda }_{i} & 1 & & & \\ & {\lambda }_{i} & 1 & & \\ & & \ddots & \ddots & \\ & & & \ddots & 1 \\ & & & & {\lambda }_{i}
    \end{pmatrix} = \lambda_i I_{r_i}+N,\]
     其中 
     \[N= J_{r_i} (0) = \begin{pmatrix}
        0 & 1 & & & \\ & 0 & 1 & & \\ & & \ddots & \ddots & \\ & & & \ddots & 1 \\ & & & & 0
    \end{pmatrix},\]
    该矩阵的特征多项式为$ f(\lambda) = \lambda^{r_i}$,因此 
    \[N^{r_i} = 0,\]
    同时有 
    \[N^2 = \begin{pmatrix}
        0 & 0&1 & & & \\
         & 0 &0& 1 & & \\ 
         & & \ddots & \ddots & \ddots&\\ 
         & & & \ddots &0& 1 \\ 
         & & & & 0&0
    \end{pmatrix},\]
    $ N$的幂次每增加一次,1所在"对角线"的位置往右上方移动一次,于是可以得到 $ N^{r_i-1}$是只有$ (1,r_i)$位置为1,其余位置均为0 的矩阵.

    从而 
    \[J_{r_i} (\lambda_i)^k = (\lambda_i I_{r_i}+N)^k,k\geq r_i-1\]
    由于纯量阵与任意矩阵均可交换,于是有 
    \[J_{r_i} (\lambda_i)^k =(\lambda_i I_{r_i}+N)^k = \lambda_i^k I_{r_i}+C_k^1 \lambda_i^{k-1}N+C_k^2 \lambda_i^{k-2}N^2+\cdots+C_k^{r_i-1}\lambda_i^{k-r_i+1}N^{r_i-1} ,\]
\end{solution}





下面我们要用 Jordan 标准型来证明著名的 Jordan-Chevalley (若当-谢瓦莱) 分解定理, 它在 Lie (李) 代数中有重要的应用. 为此我们先证明一个引理.

\begin{lemma}
    设 \(A,B\) 是两个 \(n\) 阶可对角化复矩阵且 \({AB} = {BA}\) ,则它们可同时对角化,即存在可逆阵 \(P\) ,使 \({P}^{-1}AP\) 和 \({P}^{-1}BP\) 都是对角阵.
\end{lemma}
\begin{proof}
    转换成几何语言:设$ \varphi,\psi \in \mathcal{L}(V^n_{\mathbb{C}})$,并且$ \varphi \psi  = \psi \varphi  $,则$ \varphi,\psi$可同时对角化,即存在一组基,使得$ \varphi,\psi$在这组基下的表示矩阵是对角阵.

    对$ V$的维数进行归纳,当$ \dim V  =1$时,显然;设$ \dim V<n$时结论成立,现证$ \dim V=n$的情形.

    设$ \varphi$的全体不同特征值为$ \lambda_1,\ldots,\lambda_s$.
    \begin{itemize}
        \item 若$ s = 1$,则$ \varphi = \lambda_1 I_n$是一个纯量变换.
        
        由于$ \psi $可对角化,即存在一组基$ \{e_1, \cdots,e_n\}$使得$ \psi$在这组基下的表示矩阵是对角阵,此时$ \varphi$在这组基下的表示矩阵也是对角阵(纯量变换在任一组基下的表示矩阵均为对角阵).

        \item 若$ s>1$,设特征值对应的特征子空间为$ V_1, \cdots ,V_s$.由于$ \varphi$可对角化,则有 
        \[V = V_1 \oplus \cdots \oplus V_s,\]
        并且$ \dim V_i<n$.

        由于$ \varphi \psi = \psi \varphi$,则 $ V_i$都是$ \psi$的不变子空间.

        任取$ v_i\in V_i$,则有$ \varphi(v_i) = \lambda_i v_i$,
        \[\varphi(\psi (v_i)) = \psi(\varphi(v_i)) = \psi(\lambda_i v_i) = \lambda_i \psi(v_i),\]
        即$ \psi(v_i) \in V_i$.即$ V_i$是$ \psi$的不变子空间.

        于是作限制,$ \varphi|_{V_i},\psi|_{V_i}$,由于$ \varphi,\psi$可对角化,从而$ \varphi|_{V_i},\psi|_{V_i}$可对角化(命题\ref{proposition:7.6.1}).

        $ \varphi,\psi$可交换$ \Rightarrow$ $ \varphi|_{V_i},\psi|_{V_i}$可交换.并且$ \dim V_i<n$,由归纳假设可知 存在$ V_i$的一组基,使得$ \varphi|_{V_i},\psi|_{V_i}$在这组基下的表示矩阵都是对角阵.

        将$ V_i$的基拼成$ V$的一组基,则$ \varphi,\psi$在这组基下的表示矩阵都是对角阵.
    \end{itemize}
\end{proof}


\begin{theorem}[Jordan-Chevalley 分解]
    设 \(A\) 是 \(n\) 阶复矩阵,则 \(A\) 可分解为 \(A = B + C\) ,其中 \(B,C\) 适合下面条件:
    \begin{enumerate}[(1)]
        \item \(B\) 是一个可对角化矩阵;
        \item \(C\) 是一个幂零阵;
        \item \({BC} = {CB}\) ;
        \item \(B,C\) 均可表示为 \(A\) 的多项式.
    \end{enumerate}
    不仅如此,上述满足条件 \(\left( 1\right) \sim \left( 3\right)\) 的分解是唯一的.
\end{theorem}
\begin{proof}
    先对 \(A\) 的 Jordan 标准型 \(J\) 证明结论. 设 \(A\) 的全体不同特征值为 \({\lambda }_{1},{\lambda }_{2},\cdots ,{\lambda }_{s}\) 且
    \[J = \begin{pmatrix}
        {J}_{1} & & & \\ & {J}_{2} & & \\ & & \ddots & \\ & & & {J}_{s}
    \end{pmatrix}\]
其中 \({J}_{i}\) 是属于特征值 \({\lambda }_{i}\) 的根子空间对应的块,其阶设为 \({m}_{i}\) . 显然对每个 \(i\) 均有 \({J}_{i} = {M}_{i} + {N}_{i}\) ,其中 \({M}_{i} = {\lambda }_{i}\mathbf{I}\) 是对角阵, \({N}_{i}\) 是幂零阵且 \({M}_{i}{N}_{i} = {N}_{i}{M}_{i}\)(纯量阵与任意矩阵均可交换) .

令
\[
M = \left( \begin{matrix} {M}_{1} & & & \\ & {M}_{2} & & \\ & & \ddots & \\ & & & {M}_{s} \end{matrix}\right) ,\;N = \left( \begin{matrix} {N}_{1} & & & \\ & {N}_{2} & & \\ & & \ddots & \\ & & & {N}_{s} \end{matrix}\right) ,
\]
则 \(J = M + N,MN = NM,M\) 是对角阵, \(N\) 是幂零阵.

因为 \(N_i^{m_i} ={\left( {J}_{i} - {\lambda }_{i}\mathbf{I}\right) }^{{m}_{i}} = 0\) ,所以 \({J}_{i}\) 适合多项式 \({\left( \lambda - {\lambda }_{i}\right) }^{{m}_{i}}\) . 而 \({\lambda }_{i}\) 互不相同,因此多项式 \({\left( \lambda - {\lambda }_{1}\right) }^{{m}_{1}},{\left( \lambda - {\lambda }_{2}\right) }^{{m}_{2}},\cdots ,{\left( \lambda - {\lambda }_{s}\right) }^{{m}_{s}}\) 两两互素. 由中国剩余定理,存在多项式 \(g\left( \lambda \right)\) 满足条件:
\[
g\left( \lambda \right) = {h}_{i}\left( \lambda \right) {\left( \lambda - {\lambda }_{i}\right) }^{{m}_{i}} + {\lambda }_{i}
\]

对所有 \(i = 1,2,\cdots ,s\) 成立 (这里 \({h}_{i}\left( \lambda \right)\) 也是多项式). 

代入 \({J}_{i}\) 得到

\[
g\left( {J}_{i}\right) = {h}_{i}\left( {J}_{i}\right) {\left( {J}_{i} - {\lambda }_{i}\mathbf{I}\right) }^{{m}_{i}} + {\lambda }_{i}\mathbf{I} = {\lambda }_{i}\mathbf{I} = {M}_{i}.
\]

于是
\[g(J) = \begin{pmatrix}
    g\left( {J}_{1}\right) & & & \\ & g\left( {J}_{2}\right) & & \\ & & \ddots & \\ & & & g\left( {J}_{s}\right) 
\end{pmatrix} = \begin{pmatrix}
    {M}_{1} & & & \\ & {M}_{2} & & \\ & & \ddots & \\ & & & {M}_{s} 
\end{pmatrix}\]

又因为 \(N = J - M = J - g\left( J\right)\) ,所以 \(N\) 也是 \(J\) 的多项式.


现考虑一般情形,设 \({P}^{-1}{AP} = J\) ,则 \(A = PJ{P}^{-1} = P\left( {M + N}\right) {P}^{-1}\) . 令 \(B = PM{P}^{-1},C = PN{P}^{-1}\) ,则 \(B\) 是可对角化矩阵,而 \(C\) 是幂零阵.

\[
g\left( A\right) = g\left( {PJ{P}^{-1}}\right) = Pg\left( J\right) {P}^{-1} = PM{P}^{-1} = B.
\]

又易证明 \(BC = CB,\)(将$ B,C$代入,利用$ M,N$的可交换性即可得到)\(C = A - g\left( A\right)\) .


最后证明唯一性. 假设 \(A\) 有另一满足条件 \(\left( 1\right) \sim \left( 3\right)\) 的分解 \(A = {B}_{1} + {C}_{1}\) , 则 \(B - {B}_{1} = {C}_{1} - C\) . 由 \({B}_{1}{C}_{1} = {C}_{1}{B}_{1}\) 不难验证 \(A{B}_{1} = {B}_{1}A\),
\[AB_1 = (B_1 + C_1)B_1 = B_1^2+ C_1B_1 = B_1^2+ B_1C_1 = B_1(B_1+C_1) = B_1A,\]
\(A{C}_{1} = {C}_{1}A\) 也是同理.

因为 \(B = g\left( A\right)\) ,故 \(B{B}_{1} = {B}_{1}B\) . 同理 \(C{C}_{1} = {C}_{1}C\) . 设 \({C}^{r} = \mathbf{O},{C}_{1}^{t} = \mathbf{O}\) ,用二项式定理即知 \({\left( {C}_{1} - C\right) }^{r + t} = \mathbf{O}\) . 于是

\[
{\left( B - {B}_{1}\right) }^{r + t} = {\left( {C}_{1} - C\right) }^{r + t} = \mathbf{O}.
\]


因为 \(B{B}_{1} = {B}_{1}B\) ,它们都是可对角化矩阵,由引理知道它们可同时对角化,即存在可逆阵 \(Q\) ,使得 \({Q}^{-1}BQ\) 和 \({Q}^{-1}{B}_{1}Q\) 都是对角阵. 注意到

\[
{\left( {Q}^{-1}BQ - {Q}^{-1}{B}_{1}Q\right) }^{r + t} = {\left( {Q}^{-1}\left( B - {B}_{1}\right) Q\right) }^{r + t} = {Q}^{-1}{\left( B - {B}_{1}\right) }^{r + t}Q = O,
\]

两个对角阵之差仍是一个对角阵, 这个差的幂要等于零矩阵, 这两个矩阵必相等, 由此即得 \(B = {B}_{1}\) ,于是 \(C = {C}_{1}\) . 
\end{proof}



\fbox{如何合理的选取特征向量求出广义特征向量?}

\begin{example}
    设$ A = \begin{pmatrix}
        2&6&-15\\
        1&1&-5\\
        1&2&-6
    \end{pmatrix}$,求出$ P$使得$ P^{-1}AP = J$.
\end{example}

\begin{solution}
    计算可得$ A$的初等因子为$ \lambda+1,(\lambda+1)^2$.可得Jordan 标准型为 
    \[J= \begin{pmatrix}
        -1&&\\
        &-1&1\\
        &&-1
    \end{pmatrix},\]

    设$ P = (\alpha_1 ,\alpha_2,\alpha_3)$,由$ AP = PJ$可得 
    \[A \alpha_1 = -\alpha_1, A \alpha_2 = -\alpha_2, A \alpha_3 = \alpha_2-\alpha_3\footnote{$ \alpha_3$称为广义特征向量.},\]
    由于 
    \[A+I_3 = \begin{pmatrix}
        3&6&-15\\
        1&2&-5\\
        1&2&-5
    \end{pmatrix} \rightarrow \begin{pmatrix}
        1&2&-5\\
        0&0&0\\
        0&0&0
    \end{pmatrix},\]
    可以得到基础解系为 
    \[\beta_1 = \begin{pmatrix}
        -2\\
        1\\
        0
    \end{pmatrix},\beta_2 = \begin{pmatrix}
        5\\
        0\\
        1
    \end{pmatrix},\]
    但如果将$ \beta_1, \beta_2$任意一个作为$ \alpha_2$代入求解$ \alpha_3$就会发现线性方程组无解.此时可以选择$ \beta_1,  \beta_2$的线性组合作为$ \alpha_2$.

    令$ \alpha_2 = k_1 \beta_1 + k_2 \beta_2 = \begin{pmatrix}
        -2k_1+5k_2\\
        k_1\\
        k_2
    \end{pmatrix}$,为使得方程$ (A+I_3)\alpha_3 = \alpha_2$有解要求 
    \[\mathrm{r}\begin{pmatrix}
        3&-6&15&-2k_1+5k_2\\
        1&2&-5&k_1\\
        1&2&-5&k_2
    \end{pmatrix} = 1,\]
    则有$ k_1 = k_2$.

    于是令$ \alpha_2 = \beta_1+ \beta_2 = \begin{pmatrix}
        3\\
        1\\
        1
    \end{pmatrix}$代入上述方程解得 
    \[\alpha_3 = \begin{pmatrix}
        1\\
        0\\
        0
    \end{pmatrix},\]
    $ \alpha_1$选择一个与$ \alpha_2$无关的向量即可,令$ \alpha_1 = \beta_1$.

    于是得到 
    \[P =\begin{pmatrix}
        -2&3&1\\
        1&1&0\\
        0&1&0
    \end{pmatrix}.\]
\end{solution}


\fbox{带参数矩阵Jordan标准型的确定?}

基本方法:
\begin{itemize}
    \item 选取特殊子式求出行列式因子;
    \item 计算几何重数以确定Jordan块的个数;
    \item 计算极小多项式(即不变因子在整除关系下最大的)以确定最大Jordan块的阶数.
\end{itemize}

\begin{example}
    求下列$ n$阶上三角阵的Jordan标准型
    \[A = \begin{pmatrix}
        a & 1 & 1 & \cdots & 1 \\ 0 & a & 1 & \cdots & 1 \\ 0 & 0 & a & \cdots & 1 \\ \vdots & \vdots & \vdots & & \vdots \\ 0 & 0 & 0 & \cdots & a
    \end{pmatrix}.\]
\end{example}

\begin{solution}
    \fbox{解法一}

    \[\lambda I-A = \begin{pmatrix}
        \lambda- a & -1 & -1 & \cdots & -1 \\
        0 & \lambda- a & -1 & \cdots & -1 \\
        0 & 0 & \lambda- a & \cdots & -1 \\
        \vdots & \vdots & \vdots & & \vdots \\
        0 & 0 & 0 & \cdots & \lambda- a
    \end{pmatrix}\]
    选择两个$ n-1$阶子式如下
    \[(\lambda I-A)\begin{pmatrix}
        1&\cdots &n-1\\
        1&\cdots &n-1
    \end{pmatrix} = (\lambda-a)^{n-1},(\lambda I-A)\begin{pmatrix}
        1&\cdots &n-1\\
        2&\cdots &n
    \end{pmatrix} = g(\lambda),\]
    可以得到 $ g(a) = (-1)^{n-1}$.从而这两个$ n-1$阶子式没有公根,则互素.根据行列式因子的定义,所有$ n-1$阶子式的最大公因式只能是1(由最大公因式的首一性与多个多项式求最大公因式无顺序要求可以得到).从而$ D_{n-1}(\lambda=1),D_{n}(\lambda) = (\lambda-a)^n$.由$ D_{i}(\lambda)$的整除关系得到其余行列式因子均为1,于是不变因子为  
    \[1,\cdots,1, (\lambda-a)^n,\]
    得到Jordan标准型为$ J_n(a) $.

    \fbox{解法二}

    由于$ A$的特征值为$ a$($ n$重),下面求特征值为$ a$的几何重数(即为$ \dim V_a = n-\mathrm{r}(a I_n-A)$).容易看出
\[\dim V_a = n-\mathrm{r}(a I_n-A) = n-(n-1)=1,\]
故属于特征值为$ a$的Jordan块的个数只有1个,从而Jordan标准型为$ J_n(a)$.


\fbox{解法三}

$ A$的特征多项式为 $ f(\lambda) = (\lambda-a)^n$,设极小多项式为$ m(\lambda)$,由凯莱-哈密顿定理可知$ f(A) =0$,由极小多项式的性质可知$ m(\lambda)\mid f(\lambda)$.从而$ m(\lambda) = (\lambda-1)^k,1\leq k\leq n$.

将$ A$做分解得到 
\[A= a I_n+N+N^2+\cdots+N^{n-1},\]
其中$ N = J_n(0)$.下面判断$ (\lambda-a)^{n-1}$是否为极小多项式.
\[ (A - a I_n)^{n-1} = (N+N^2+\cdots+N^{n-1})^{n-1} =N^{n-1}\neq 0, \]
于是$ (\lambda-a)^{n-1}$不是极小多项式,故$ k = n$.

由于极小多项式与特征多项式均为$ (\lambda-a)^n$,极小多项式是最大的不变因子,特征多项式为所有非常数不变因子的乘积,于是不变因子为 
\[1,\cdots,1, (\lambda-a)^n,\]
从而Jordan标准型为$ J_n(a)$.
\end{solution}



\begin{example}
    \[A = \begin{pmatrix}
        1&&&\\
        a+2&1&&\\
        5&3&1&\\
        7&6&b+4&1
    \end{pmatrix}\]
    求 $ A$的 Jordan 标准型.
\end{example}
\begin{solution}
    $ A$的特征多项式为$ f(\lambda) = (\lambda-1)^4$,特征值全为1,下面求1的几何重数.

    $ \dim V_1 = 4- \mathrm{r}(I_n-A) = \begin{cases}
        4-3=1,a+2\neq 0\text{且} b+4\neq 0\\
        4-2=2,a+2=0\text{或} b+4= 0\\
    \end{cases}$.

    几何重数即为 Jordan块的个数,当几何重数为1时, Jordan标准型为 $ J_4(1)$.

    当几何重数为2时,设$ J = \mathrm{diag}\{J_k(1),J_\ell(1)\}$.其中$ k+\ell =4,1\leq k\leq \ell$.
    从而得到$ 2\leq \ell \leq 3$.

    下面通过极小多项式来确定$ \ell $的取值.与上题一样,极小多项式$ m(\lambda) = (\lambda-1)^t,2\leq t\leq 3$.

    由于
    \[(A-I_n)^2 = \begin{pmatrix}
        0&0&0&0\\
        0&0&0&0\\
        3(a+2)&0&0&0\\
        6(a+2)+5(b+2)&3(b+4)&0&0
    \end{pmatrix},\]
    再分情况讨论,
    \[(A-I_n)^2\begin{cases}
        =O,(a+2)=0 and (b+4)=0 \Rightarrow \ell = 2,J = \mathrm{diag}\{J_2(1),J_2(1)\} \\
        \neq O,(a+2)=0 or (b+4)= 0\Rightarrow \ell = 3,J = \mathrm{diag}\{J_1(1),J_3(1)\}
    \end{cases},\]
\end{solution}


\fbox{循环子空间的应用.}

\begin{definition}
    设$ \varphi\in \mathcal{L}(V_{ \mathbb{K}}^n),0\neq \alpha\in V$,由$ \{\alpha,\varphi(\alpha),\varphi^2(\alpha),\cdots,\}$张成的子空间记为$ C(\varphi,\alpha)$,称为$ \varphi$关于循环向量$ \alpha$的循环子空间.
\end{definition}

\begin{note}
    $ C(\varphi,\alpha)$是包含$ \alpha$的最小 $ \varphi$-不变子空间.
\end{note}

\begin{lemma}
    设$ \dim C(\varphi,\alpha) = m$,则$ \{ \alpha,\varphi(\alpha),\varphi^2(\alpha),\cdots,\varphi^{m-1}(\alpha)\} $为$ C( \varphi,\alpha)$的一组基.
\end{lemma}
\begin{proof}
    令$ k = \max\{i\in \mathbb{Z}^+|\alpha,\varphi(\alpha),\cdots, \varphi^{i-1}(\alpha)\text{线性无关}\}$.

    这样的$ k$一定时存在的,因为后面的集合一定非空并且其基数有上界.

    于是得到
    \[\begin{cases}
        \alpha,\varphi(\alpha),\cdots,\varphi^{k-1}(\alpha)\text{线性无关}\\
        \alpha,\varphi(\alpha),\cdots,\varphi^{k-1}(\alpha),\varphi^k(\alpha)\text{线性相关} 
    \end{cases}\]
    从而$ \varphi^k(\alpha)$一定是$ \alpha,\varphi(\alpha),\cdots,\varphi^{k-1}(\alpha) $的线性组合.

    可以证明,$ \forall i\geq k$,$ \varphi^i(\alpha) $是$ \alpha,\varphi(\alpha),\cdots,\varphi^{k-1}(\alpha)$的线性组合.

    从而$ \alpha,\varphi(\alpha),\cdots,\varphi^{k-1}(\alpha)$是$  C(\varphi,\alpha)$的一组基.于是
    \[\dim C(\varphi,\alpha) = k=m.\]
\end{proof}





\begin{proposition}
    设$ V = C( \varphi,\alpha)$为循环空间,$ \psi \in \mathcal{L}(V)$且$ \varphi \psi = \psi \varphi$,
    \begin{enumerate}[(1)]
        \item $ \psi$由$ \psi(\alpha)$ 的值唯一决定;
        \item 存在$ g(\lambda)\in \mathbb{K}[\lambda]$,使得 $ \psi = g(\varphi)$.
    \end{enumerate}
\end{proposition}


\begin{proof}
    \begin{enumerate}[(1)]
        \item $ \dim V = \dim C(\varphi,\alpha) = n$,从而$ \{\alpha,\varphi(\alpha),\varphi^2(\alpha),\cdots,\varphi^{n-1}(\alpha)\} $为$  C( \varphi,\alpha)$的一组基.
        
        $ \psi$由$ \psi$在基上的作用唯一决定.又有$ \varphi \psi = \psi \varphi$,

        \[\psi(\varphi^i(\alpha)) = \varphi^i(\psi(\alpha)) ,\quad i=0,1,\cdots,n-1,\]
        从而$ \psi$由$ \psi(\alpha)$ 的值唯一决定.

        \item 设
        \[\psi(\alpha) = a_0\alpha + a_1\varphi(\alpha) + \cdots + a_{n-1}\varphi^{n-1}(\alpha),\]
        令
        \[g(x) = a_0 + a_1x + \cdots + a_{n-1}x^{n-1},\]
        由于$ g(\varphi)$与$ \varphi$可交换,由(1)知$ \psi$由$ \psi(\alpha)$ 的值唯一决定,并且有  
        \[\psi(\alpha) = g(\varphi)(\alpha),\]
        由(1)可知$ \psi = g(\varphi)$.
    \end{enumerate}
\end{proof}





\begin{example}
    $ A = J_n(\lambda_0)$,并且有$ AB = BA$,则$ B = g(A)$.
\end{example}

\begin{proof}
    翻译成几何语言为$ \varphi \in \mathcal{L}(V^n_{ \mathbb{C}})$,并且存在一组基使得$ \varphi$在这组基下的表示矩阵为Jordan标准型,同时有$ \varphi\psi = \psi\varphi$,则存在多项式$ g(\lambda)$使得$ \psi = g(\varphi)$.

    由于每个Jordan块所对应的子空间是循环子空间,从而$ V$是一个循环子空间.由上述命题可知$ \psi = g(\varphi)$.
\end{proof}









